Заказжу многопоточный парсер сайта - Форум успешных вебмастеров - GoFuckBiz.com - Страница 2

Регистрация

Сообщения за день

Пользователи

		Форум успешных вебмастеров - GoFuckBiz.com > Разное > Объявления о покупке/продаже товаров и услуг
Заказжу многопоточный парсер сайта


Дата
USD/RUB	88.4375
BTC/USD	68086.3020

Объявления о покупке/продаже товаров и услуг Также в этом разделе следует размещать и предложения о сотрудничестве.

Закрытая тема

Страница 2 из 2

2

Опции темы

Опции просмотра

18.10.2011, 13:31	Start Post: Заказжу многопоточный парсер сайта #11
Webaz 777 Регистрация: 21.09.2007 Сообщений: 1,399 Бабло: $304877	нужен скрипт, который спарсит парочку сайтов и сделает из них один или 3 обязательно на языке, поддерживающим многопоточность

Старый

18.10.2011, 17:11

#12

chesser

автоматизирую интернеты

Аватар для chesser

Регистрация: 05.07.2009

Адрес: chesser.ru

Сообщений: 3,354
Бабло: $470735

По умолчанию

еще учтите такой нюанс, что если парсить несколько раз один и тот же сайт, то его владельцы могут это заметить и заблокировать ваш айпи.
Со мной такое случалось и не раз - очень неприятно, пришлось писать серверный эмулятор браузера и теперь они думают, что я браузер

Правда хорошие прокси тоже спасут, но тогда и софт должен уметь с ними работать и еще какие-нить неудобства

Цитата:

Сообщение от WebNinja

Посмотреть сообщение

и вообще могу сказать без всяких понтов в деле Data Collection/Parsing - webninja неплохой специалист

хм, нанять что ли тебя потом, или ты меня найми

__________________
USA и NL серверы и VPS | wiki | блог | Drupal | NginxТДС
Ave, Google, morituri te salutant! © chesser

chesser вне форума

18.10.2011, 17:27	#13
1een Senior Member Регистрация: 28.05.2009 Сообщений: 1,319 Бабло: $164090	Да работает CD с проксями. И вполне успешно. Вы изучите уже готовые решения, прежде чем писать свой велосипед. Программа стоит копейки, купите её за стоимость 6-ти обедов, а вместо того чтобы кодить свой 100500-й уже парсер, попейте пивка или девушку/жену прокатите Не в обиду многим членам коммюнити, но, я очень часто вижу как кодеры (прогеры там кодеры) пишут софт, не изучив рынок уже готовой продукции. А потом удивляются отсутствию спроса. Потому что не менеджеры ни разу. Потому что не ставили себя на место покупателя. При этом, покупателю например, парсера вообщем-то похуй, на чем он написан: питон или ассемблер там. Да хоть, на Аде. Ему главное чтобы у него на тачке запускался; а серверное решение - это часто проблемное решение для многих - просто оцените свою клиентуру. Сервак покупать ради парсера? Нахера, если с дом. машины также работает. Тем более баны по ip и прочее. Последний раз редактировалось 1een; 18.10.2011 в 17:36.

18.10.2011, 18:07	#14
WebNinja grablab.org Регистрация: 18.09.2007 Адрес: Thailand Сообщений: 4,891 Бабло: $322264	Так это, готовые решения уже давно написаны, и по большому счету нечего даже сравнивать поделку ориентированную на нубов с индастри пруф решениями в сфере Data collection. хотя канешно для использования этих решений требуется некоторая сноровка и скилл помимо умения клацать мышкой по кнопам. С домашней машины так же не работает - это бред сравнивать ДЦ с линией от провайдера. Парсить в промышленных масштабов с дом. машины это пиздец. Не говоря уже о том что данные как правило нужно преобразовывать в нужную форму и обрабатывать. Я чето сомневаюсь что можно реализовать какую-то сложную логику на десктопном софте. как-то парсил большой каталог с сервера, это дело растянулось на несколько суток. с десктопа сколько? неделю? __________________ www.imscraping.ninja grablab.org \| blog

18.10.2011, 18:18	#15
1een Senior Member Регистрация: 28.05.2009 Сообщений: 1,319 Бабло: $164090	Может мы с тобой о разных вещах рассуждаем... что такое в твоем понимании "в пром. масштабах"? Заполнять индекс совственного поисковика? Вряд ли ты об этом. Понятно, сервера и дц и распределение нагрузки, и прочая космическая хуйня. Парсинг торговых площадок и порталов? Из дома - нехер делать. Вот канал 100 мбит из дома не редкость (при этом не забываем, что бурж сайты рашкиному парсеру не будут отдавать сайт с такой скоростью, ну 10-20 мбит отдаст). В дц Xeon? У меня дома I7, скажем - проблем в скорости обработки нет. Какие еще преимущества для рядового юзера (а не компании, которая решила замутить свой мегаиндексатор)? WebNinja, я честно не знаю что именно ты парсишь и дата-майнишь, но данной ситуации ты предлагаешь проложить до булочной рельсы, а потом на собственном трамвае ездить каждое утро за хлебом туда. Вместо того, чтобы пройдись пешком)))

18.10.2011, 18:24	#16
WebNinja grablab.org Регистрация: 18.09.2007 Адрес: Thailand Сообщений: 4,891 Бабло: $322264	я ничего не предлагаю. неизвестно что нужно-то конкретно и какого плана сайты. __________________ www.imscraping.ninja grablab.org \| blog

18.10.2011, 18:26	#17
chesser автоматизирую интернеты Регистрация: 05.07.2009 Адрес: chesser.ru Сообщений: 3,354 Бабло: $470735	1een, там если твой пост в сторону меня был, то он ко мне не имеет отношения, т.к. я никаким софтом никогда не торговал и не собираюсь, а когда люди обращаются ко мне накодить велосипед, я обычно отсылаю за готовыми решениями, или к тому, кто эти велосипеды штампует оптом, или сюда на форум потому что мне не интересно и не рационально кодить с нуля то, что уже есть. Так что я с тобой согласен. Но, поверь, бывают ситуации, когда нужны именно такие кастомные решения, и без изобретения велосипедов никуда. Вот я рассказывал именно про такой мой случай и про проблемы, которые возникли. Этот парсер анализировал цены наших конкурентов в реальном времени и вносил соответсвующие правки в наши шопы (расположенные на нескольких серверах), а также занимался пиздингом продукт-описания/ттх/отзывов/картинок и прочей инфы о новой продукции(не руками же вносить тысячи текстов), эта информация также искалась и парсилась с вражеских сайтов и других источников, которые почему-то активно сопротивлялись. Конкретно сейчас одна из версий парсера вставляет примерно 3-4 миллионную запись в таблицу items от базы данных, которая чем-то напоминает market.yandex. Сбор инфы идет даже не неделями. Ну или полностью побыстрому спарсить imdb.com не самая тривиальная задача, да и использование mysql порой не удобно и медленно. так что иногда есть смысл покупать кластер серверов и писать свой софт с нуля нинзе кстати проще, у него в питоне есть scrapy, но в скрапи из коробки нет эмулятора браузера __________________ USA и NL серверы и VPS \| wiki \| блог \| Drupal \| NginxТДС Ave, Google, morituri te salutant! © chesser

18.10.2011, 18:40	#18
dady Senior Medved Регистрация: 15.06.2008 Сообщений: 4,137 Бабло: $22479945	Сделать юзерагент гугл бота и не парится. __________________ Аппрув США >91% и Европа >90% Сливай фарму на Pharmcash - получай хрустящий кэш! / Спонсор! Докажи, что твоя партнерка №1 / 2019

Старый

18.10.2011, 18:50

#19

chesser

автоматизирую интернеты

Аватар для chesser

Регистрация: 05.07.2009

Адрес: chesser.ru

Сообщений: 3,354
Бабло: $470735

По умолчанию

Цитата:

Сообщение от dady

Посмотреть сообщение

Сделать юзерагент гугл бота и не парится.

по whois'у видимо поняли и написали в несколько разных ДЦ абузу: "а почему вы нас парсите? тем более мы же закрыли часть страниц от индексации в robots.txt"
хотя в большинстве мест такое прокатывает.
Но не очень хочется, пусть и редко, отвечать на вопросы ДЦ имею ли я отношение к компании Google

ps
и кстати, кол-во этих абуз должно расти пропорционально росту кол-ва сайтов для парсинга. вот сейчас по датамайнингу делаю решение, которое должно парсить "все шопы мира"

поэтому уж лучше я буду ебаться с эмулятором браузера, чем с юристами гугла ))

__________________
USA и NL серверы и VPS | wiki | блог | Drupal | NginxТДС
Ave, Google, morituri te salutant! © chesser

Последний раз редактировалось chesser; 18.10.2011 в 18:59.

chesser вне форума

Старый

18.10.2011, 21:47

#20

Boddhisatva

Добрых дел мастер

Аватар для Boddhisatva

Регистрация: 05.12.2009

Адрес: Tibet

Сообщений: 961
Бабло: $145785

По умолчанию

Цитата:

Сообщение от Fisherman

Посмотреть сообщение

Знатная софтинка. Ее кто то использует в промышленных масштабах? Ну например для наполнения варезников?

Я использую, т.к. за bget 1k отдавать не хочу.
Вот буквально 2 дня назад спарсил 50к статей с картинками.

Софт хороший - из минусов только:

1) 10 потоков - но, как мне как-то leen уже посоветовал - можно разбить задачу на кусочки и запустить несколько копий приложений (но я не пробовал).

2) Реально 1 баг серьёзный есть(или фича, я х.з.), о котором мне все лень написать разработчику - он обнаружился при парсинге сложной страницы, где нужно было переходить по ссылке на другую, и там кое-что делать. Но это задача не из совсем рядовых, так скажем.

3) для кого-то может быть минусом - нет визуальной настройки шаблонов \ кусков страницы что и откуда парсим, все указываешь из исходника html. К примеру в том же веб дата экстракторе все делается мышкой и немного быстрее. Но мне на это пофиг - мне надо парсить, а не шашечки.

Тысячу(или сколько он там) - это софт стоит точно. Особенно если взять любой другой парсер и сравнить по "удельной функциональности", оцененной в рублях. Хорошие парсеры дорогие, што пипец. Особенно зарубежные.

Boddhisatva вне форума

Закрытая тема

Страница 2 из 2

2