|
| Дата |
|
USD/RUB | 88.4375 | BTC/USD | 68086.3020 |
|
|
|
Объявления о покупке/продаже товаров и услуг Также в этом разделе следует размещать и предложения о сотрудничестве. |
18.10.2011, 13:31
|
Start Post: Заказжу многопоточный парсер сайта
|
777
Регистрация: 21.09.2007
Сообщений: 1,399
Бабло: $304877
|
нужен скрипт, который спарсит парочку сайтов и сделает из них один или 3
обязательно на языке, поддерживающим многопоточность
|
|
|
18.10.2011, 17:11
|
#12
|
автоматизирую интернеты
Регистрация: 05.07.2009
Адрес: chesser.ru
Сообщений: 3,354
Бабло: $470735
|
еще учтите такой нюанс, что если парсить несколько раз один и тот же сайт, то его владельцы могут это заметить и заблокировать ваш айпи.
Со мной такое случалось и не раз - очень неприятно, пришлось писать серверный эмулятор браузера и теперь они думают, что я браузер
Правда хорошие прокси тоже спасут, но тогда и софт должен уметь с ними работать и еще какие-нить неудобства
Цитата:
Сообщение от WebNinja
и вообще могу сказать без всяких понтов в деле Data Collection/Parsing - webninja неплохой специалист
|
хм, нанять что ли тебя потом, или ты меня найми
|
|
|
18.10.2011, 17:27
|
#13
|
Senior Member
Регистрация: 28.05.2009
Сообщений: 1,319
Бабло: $164090
|
Да работает CD с проксями. И вполне успешно.
Вы изучите уже готовые решения, прежде чем писать свой велосипед. Программа стоит копейки, купите её за стоимость 6-ти обедов, а вместо того чтобы кодить свой 100500-й уже парсер, попейте пивка или девушку/жену прокатите
Не в обиду многим членам коммюнити, но, я очень часто вижу как кодеры (прогеры там кодеры) пишут софт, не изучив рынок уже готовой продукции. А потом удивляются отсутствию спроса. Потому что не менеджеры ни разу. Потому что не ставили себя на место покупателя.
При этом, покупателю например, парсера вообщем-то похуй, на чем он написан: питон или ассемблер там. Да хоть, на Аде. Ему главное чтобы у него на тачке запускался; а серверное решение - это часто проблемное решение для многих - просто оцените свою клиентуру. Сервак покупать ради парсера? Нахера, если с дом. машины также работает. Тем более баны по ip и прочее.
Последний раз редактировалось 1een; 18.10.2011 в 17:36.
|
|
|
18.10.2011, 18:07
|
#14
|
grablab.org
Регистрация: 18.09.2007
Адрес: Thailand
Сообщений: 4,891
Бабло: $322264
|
Так это, готовые решения уже давно написаны, и по большому счету нечего даже сравнивать поделку ориентированную на нубов с индастри пруф решениями в сфере Data collection. хотя канешно для использования этих решений требуется некоторая сноровка и скилл помимо умения клацать мышкой по кнопам.
С домашней машины так же не работает - это бред сравнивать ДЦ с линией от провайдера. Парсить в промышленных масштабов с дом. машины это пиздец. Не говоря уже о том что данные как правило нужно преобразовывать в нужную форму и обрабатывать. Я чето сомневаюсь что можно реализовать какую-то сложную логику на десктопном софте.
как-то парсил большой каталог с сервера, это дело растянулось на несколько суток. с десктопа сколько? неделю?
|
|
|
18.10.2011, 18:18
|
#15
|
Senior Member
Регистрация: 28.05.2009
Сообщений: 1,319
Бабло: $164090
|
Может мы с тобой о разных вещах рассуждаем... что такое в твоем понимании "в пром. масштабах"? Заполнять индекс совственного поисковика? Вряд ли ты об этом. Понятно, сервера и дц и распределение нагрузки, и прочая космическая хуйня.
Парсинг торговых площадок и порталов? Из дома - нехер делать. Вот канал 100 мбит из дома не редкость (при этом не забываем, что бурж сайты рашкиному парсеру не будут отдавать сайт с такой скоростью, ну 10-20 мбит отдаст). В дц Xeon? У меня дома I7, скажем - проблем в скорости обработки нет. Какие еще преимущества для рядового юзера (а не компании, которая решила замутить свой мегаиндексатор)?
WebNinja, я честно не знаю что именно ты парсишь и дата-майнишь, но данной ситуации ты предлагаешь проложить до булочной рельсы, а потом на собственном трамвае ездить каждое утро за хлебом туда. Вместо того, чтобы пройдись пешком)))
|
|
|
18.10.2011, 18:24
|
#16
|
grablab.org
Регистрация: 18.09.2007
Адрес: Thailand
Сообщений: 4,891
Бабло: $322264
|
я ничего не предлагаю. неизвестно что нужно-то конкретно и какого плана сайты.
|
|
|
18.10.2011, 18:26
|
#17
|
автоматизирую интернеты
Регистрация: 05.07.2009
Адрес: chesser.ru
Сообщений: 3,354
Бабло: $470735
|
1een, там если твой пост в сторону меня был, то он ко мне не имеет отношения, т.к. я никаким софтом никогда не торговал и не собираюсь, а когда люди обращаются ко мне накодить велосипед, я обычно отсылаю за готовыми решениями, или к тому, кто эти велосипеды штампует оптом, или сюда на форум потому что мне не интересно и не рационально кодить с нуля то, что уже есть. Так что я с тобой согласен.
Но, поверь, бывают ситуации, когда нужны именно такие кастомные решения, и без изобретения велосипедов никуда. Вот я рассказывал именно про такой мой случай и про проблемы, которые возникли. Этот парсер анализировал цены наших конкурентов в реальном времени и вносил соответсвующие правки в наши шопы (расположенные на нескольких серверах), а также занимался пиздингом продукт-описания/ттх/отзывов/картинок и прочей инфы о новой продукции(не руками же вносить тысячи текстов), эта информация также искалась и парсилась с вражеских сайтов и других источников, которые почему-то активно сопротивлялись.
Конкретно сейчас одна из версий парсера вставляет примерно 3-4 миллионную запись в таблицу items от базы данных, которая чем-то напоминает market.yandex. Сбор инфы идет даже не неделями.
Ну или полностью побыстрому спарсить imdb.com не самая тривиальная задача, да и использование mysql порой не удобно и медленно.
так что иногда есть смысл покупать кластер серверов и писать свой софт с нуля
нинзе кстати проще, у него в питоне есть scrapy, но в скрапи из коробки нет эмулятора браузера
|
|
|
18.10.2011, 18:40
|
#18
|
Senior Medved
Регистрация: 15.06.2008
Сообщений: 4,137
Бабло: $22479945
|
Сделать юзерагент гугл бота и не парится.
|
|
|
18.10.2011, 18:50
|
#19
|
автоматизирую интернеты
Регистрация: 05.07.2009
Адрес: chesser.ru
Сообщений: 3,354
Бабло: $470735
|
Цитата:
Сообщение от dady
Сделать юзерагент гугл бота и не парится.
|
по whois'у видимо поняли и написали в несколько разных ДЦ абузу: "а почему вы нас парсите? тем более мы же закрыли часть страниц от индексации в robots.txt"
хотя в большинстве мест такое прокатывает.
Но не очень хочется, пусть и редко, отвечать на вопросы ДЦ имею ли я отношение к компании Google
ps
и кстати, кол-во этих абуз должно расти пропорционально росту кол-ва сайтов для парсинга. вот сейчас по датамайнингу делаю решение, которое должно парсить "все шопы мира" поэтому уж лучше я буду ебаться с эмулятором браузера, чем с юристами гугла ))
Последний раз редактировалось chesser; 18.10.2011 в 18:59.
|
|
|
18.10.2011, 21:47
|
#20
|
Добрых дел мастер
Регистрация: 05.12.2009
Адрес: Tibet
Сообщений: 961
Бабло: $145785
|
Цитата:
Сообщение от Fisherman
Знатная софтинка. Ее кто то использует в промышленных масштабах? Ну например для наполнения варезников?
|
Я использую, т.к. за bget 1k отдавать не хочу.
Вот буквально 2 дня назад спарсил 50к статей с картинками.
Софт хороший - из минусов только:
1) 10 потоков - но, как мне как-то leen уже посоветовал - можно разбить задачу на кусочки и запустить несколько копий приложений (но я не пробовал).
2) Реально 1 баг серьёзный есть(или фича, я х.з.), о котором мне все лень написать разработчику - он обнаружился при парсинге сложной страницы, где нужно было переходить по ссылке на другую, и там кое-что делать. Но это задача не из совсем рядовых, так скажем.
3) для кого-то может быть минусом - нет визуальной настройки шаблонов \ кусков страницы что и откуда парсим, все указываешь из исходника html. К примеру в том же веб дата экстракторе все делается мышкой и немного быстрее. Но мне на это пофиг - мне надо парсить, а не шашечки.
Тысячу(или сколько он там) - это софт стоит точно. Особенно если взять любой другой парсер и сравнить по "удельной функциональности", оцененной в рублях. Хорошие парсеры дорогие, што пипец. Особенно зарубежные.
|
|
|
|