Заказжу многопоточный парсер сайта - Форум успешных вебмастеров - GoFuckBiz.com - Страница 2
 
 
Форум успешных вебмастеров - GoFuckBiz.com

  Форум успешных вебмастеров - GoFuckBiz.com > Разное > Объявления о покупке/продаже товаров и услуг
Дата
USD/RUB88.4375
BTC/USD68086.3020
Объявления о покупке/продаже товаров и услуг Также в этом разделе следует размещать и предложения о сотрудничестве.

Закрытая тема
Опции темы Опции просмотра
Старый 18.10.2011, 13:31
Start Post: Заказжу многопоточный парсер сайта 
  #11
Webaz
777
 
Аватар для Webaz
 
Регистрация: 21.09.2007
Сообщений: 1,399
Бабло: $304877
Отправить сообщение для Webaz с помощью ICQ
По умолчанию

нужен скрипт, который спарсит парочку сайтов и сделает из них один или 3
обязательно на языке, поддерживающим многопоточность
Webaz вне форума  
Старый 18.10.2011, 17:11   #12
chesser
автоматизирую интернеты
 
Аватар для chesser
 
Регистрация: 05.07.2009
Адрес: chesser.ru
Сообщений: 3,354
Бабло: $470735
По умолчанию

еще учтите такой нюанс, что если парсить несколько раз один и тот же сайт, то его владельцы могут это заметить и заблокировать ваш айпи.
Со мной такое случалось и не раз - очень неприятно, пришлось писать серверный эмулятор браузера и теперь они думают, что я браузер
Правда хорошие прокси тоже спасут, но тогда и софт должен уметь с ними работать и еще какие-нить неудобства

Цитата:
Сообщение от WebNinja Посмотреть сообщение
и вообще могу сказать без всяких понтов в деле Data Collection/Parsing - webninja неплохой специалист
хм, нанять что ли тебя потом, или ты меня найми
__________________
USA и NL серверы и VPS | wiki | блог | Drupal | NginxТДС
Ave, Google, morituri te salutant! © chesser
chesser вне форума  
Старый 18.10.2011, 17:27   #13
1een
Senior Member
 
Аватар для 1een
 
Регистрация: 28.05.2009
Сообщений: 1,319
Бабло: $164090
По умолчанию

Да работает CD с проксями. И вполне успешно.
Вы изучите уже готовые решения, прежде чем писать свой велосипед. Программа стоит копейки, купите её за стоимость 6-ти обедов, а вместо того чтобы кодить свой 100500-й уже парсер, попейте пивка или девушку/жену прокатите

Не в обиду многим членам коммюнити, но, я очень часто вижу как кодеры (прогеры там кодеры) пишут софт, не изучив рынок уже готовой продукции. А потом удивляются отсутствию спроса. Потому что не менеджеры ни разу. Потому что не ставили себя на место покупателя.
При этом, покупателю например, парсера вообщем-то похуй, на чем он написан: питон или ассемблер там. Да хоть, на Аде. Ему главное чтобы у него на тачке запускался; а серверное решение - это часто проблемное решение для многих - просто оцените свою клиентуру. Сервак покупать ради парсера? Нахера, если с дом. машины также работает. Тем более баны по ip и прочее.

Последний раз редактировалось 1een; 18.10.2011 в 17:36.
1een вне форума  
Старый 18.10.2011, 18:07   #14
WebNinja
grablab.org
 
Аватар для WebNinja
 
Регистрация: 18.09.2007
Адрес: Thailand
Сообщений: 4,891
Бабло: $322264
Отправить сообщение для WebNinja с помощью ICQ Отправить сообщение для WebNinja с помощью Skype™
По умолчанию

Так это, готовые решения уже давно написаны, и по большому счету нечего даже сравнивать поделку ориентированную на нубов с индастри пруф решениями в сфере Data collection. хотя канешно для использования этих решений требуется некоторая сноровка и скилл помимо умения клацать мышкой по кнопам.

С домашней машины так же не работает - это бред сравнивать ДЦ с линией от провайдера. Парсить в промышленных масштабов с дом. машины это пиздец. Не говоря уже о том что данные как правило нужно преобразовывать в нужную форму и обрабатывать. Я чето сомневаюсь что можно реализовать какую-то сложную логику на десктопном софте.

как-то парсил большой каталог с сервера, это дело растянулось на несколько суток. с десктопа сколько? неделю?
__________________
www.imscraping.ninja
grablab.org | blog
WebNinja вне форума  
Старый 18.10.2011, 18:18   #15
1een
Senior Member
 
Аватар для 1een
 
Регистрация: 28.05.2009
Сообщений: 1,319
Бабло: $164090
По умолчанию

Может мы с тобой о разных вещах рассуждаем... что такое в твоем понимании "в пром. масштабах"? Заполнять индекс совственного поисковика? Вряд ли ты об этом. Понятно, сервера и дц и распределение нагрузки, и прочая космическая хуйня.

Парсинг торговых площадок и порталов? Из дома - нехер делать. Вот канал 100 мбит из дома не редкость (при этом не забываем, что бурж сайты рашкиному парсеру не будут отдавать сайт с такой скоростью, ну 10-20 мбит отдаст). В дц Xeon? У меня дома I7, скажем - проблем в скорости обработки нет. Какие еще преимущества для рядового юзера (а не компании, которая решила замутить свой мегаиндексатор)?

WebNinja, я честно не знаю что именно ты парсишь и дата-майнишь, но данной ситуации ты предлагаешь проложить до булочной рельсы, а потом на собственном трамвае ездить каждое утро за хлебом туда. Вместо того, чтобы пройдись пешком)))
1een вне форума  
Старый 18.10.2011, 18:24   #16
WebNinja
grablab.org
 
Аватар для WebNinja
 
Регистрация: 18.09.2007
Адрес: Thailand
Сообщений: 4,891
Бабло: $322264
Отправить сообщение для WebNinja с помощью ICQ Отправить сообщение для WebNinja с помощью Skype™
По умолчанию

я ничего не предлагаю. неизвестно что нужно-то конкретно и какого плана сайты.
__________________
www.imscraping.ninja
grablab.org | blog
WebNinja вне форума  
Старый 18.10.2011, 18:26   #17
chesser
автоматизирую интернеты
 
Аватар для chesser
 
Регистрация: 05.07.2009
Адрес: chesser.ru
Сообщений: 3,354
Бабло: $470735
По умолчанию

1een, там если твой пост в сторону меня был, то Offtopic

Но, поверь, бывают ситуации, когда нужны именно такие кастомные решения, и без изобретения велосипедов никуда. Вот я рассказывал именно про такой мой случай и про проблемы, которые возникли. Этот парсер анализировал цены наших конкурентов в реальном времени и вносил соответсвующие правки в наши шопы (расположенные на нескольких серверах), а также занимался пиздингом продукт-описания/ттх/отзывов/картинок и прочей инфы о новой продукции(не руками же вносить тысячи текстов), эта информация также искалась и парсилась с вражеских сайтов и других источников, которые почему-то активно сопротивлялись.
Конкретно сейчас одна из версий парсера вставляет примерно 3-4 миллионную запись в таблицу items от базы данных, которая чем-то напоминает market.yandex. Сбор инфы идет даже не неделями.
Ну или полностью побыстрому спарсить imdb.com не самая тривиальная задача, да и использование mysql порой не удобно и медленно.

так что иногда есть смысл покупать кластер серверов и писать свой софт с нуля

нинзе кстати проще, у него в питоне есть scrapy, но в скрапи из коробки нет эмулятора браузера
__________________
USA и NL серверы и VPS | wiki | блог | Drupal | NginxТДС
Ave, Google, morituri te salutant! © chesser
chesser вне форума  
Старый 18.10.2011, 18:40   #18
dady
Senior Medved
 
Аватар для dady
 
Регистрация: 15.06.2008
Сообщений: 4,137
Бабло: $22479945
По умолчанию

Сделать юзерагент гугл бота и не парится.
__________________
Аппрув США >91% и Европа >90% Сливай фарму на Pharmcash - получай хрустящий кэш! / Спонсор! Докажи, что твоя партнерка №1 / 2019
dady вне форума  
Старый 18.10.2011, 18:50   #19
chesser
автоматизирую интернеты
 
Аватар для chesser
 
Регистрация: 05.07.2009
Адрес: chesser.ru
Сообщений: 3,354
Бабло: $470735
По умолчанию

Цитата:
Сообщение от dady Посмотреть сообщение
Сделать юзерагент гугл бота и не парится.
по whois'у видимо поняли и написали в несколько разных ДЦ абузу: "а почему вы нас парсите? тем более мы же закрыли часть страниц от индексации в robots.txt"
хотя в большинстве мест такое прокатывает.
Но не очень хочется, пусть и редко, отвечать на вопросы ДЦ имею ли я отношение к компании Google

ps
и кстати, кол-во этих абуз должно расти пропорционально росту кол-ва сайтов для парсинга. вот сейчас по датамайнингу делаю решение, которое должно парсить "все шопы мира" поэтому уж лучше я буду ебаться с эмулятором браузера, чем с юристами гугла ))
__________________
USA и NL серверы и VPS | wiki | блог | Drupal | NginxТДС
Ave, Google, morituri te salutant! © chesser

Последний раз редактировалось chesser; 18.10.2011 в 18:59.
chesser вне форума  
Старый 18.10.2011, 21:47   #20
Boddhisatva
Добрых дел мастер
 
Аватар для Boddhisatva
 
Регистрация: 05.12.2009
Адрес: Tibet
Сообщений: 961
Бабло: $145785
По умолчанию

Цитата:
Сообщение от Fisherman Посмотреть сообщение
Знатная софтинка. Ее кто то использует в промышленных масштабах? Ну например для наполнения варезников?
Я использую, т.к. за bget 1k отдавать не хочу.
Вот буквально 2 дня назад спарсил 50к статей с картинками.

Софт хороший - из минусов только:

1) 10 потоков - но, как мне как-то leen уже посоветовал - можно разбить задачу на кусочки и запустить несколько копий приложений (но я не пробовал).

2) Реально 1 баг серьёзный есть(или фича, я х.з.), о котором мне все лень написать разработчику - он обнаружился при парсинге сложной страницы, где нужно было переходить по ссылке на другую, и там кое-что делать. Но это задача не из совсем рядовых, так скажем.

3) для кого-то может быть минусом - нет визуальной настройки шаблонов \ кусков страницы что и откуда парсим, все указываешь из исходника html. К примеру в том же веб дата экстракторе все делается мышкой и немного быстрее. Но мне на это пофиг - мне надо парсить, а не шашечки.

Тысячу(или сколько он там) - это софт стоит точно. Особенно если взять любой другой парсер и сравнить по "удельной функциональности", оцененной в рублях. Хорошие парсеры дорогие, што пипец. Особенно зарубежные.
Boddhisatva вне форума