PDA

Просмотр полной версии : Парсинг Gym... баны ипшек.


Virtual
05.06.2007, 19:33
Задумался я по банам ипшек.. Может, у кого есть опыт, если скажем с ИП1 дернуть первую страницу выдачи у гугли по кею guestbook, и потом сразу же с ИП2 дернуть вторую страницу выдачи по этому же кею - велика вероятность бана? Естественно, двумя запросами все не ограничивается.. пару лямов запросов на 16 ипшек скажем. :)

Или стоит эмулировать точное поведение юзера - дернул первую страницу с ИП1 - и продолжать дергать остальные с этой же ипшки, поддерживая куки и т.д. с некоторыми задержками?

Кто как считает? Интересует как добиться минимальной вероятности бана ипшки гуглей и т.п.. :)

И.. наверное филосовский вопрос - идеальный парсер - какие функции должен содержать в себе? :)

solar
06.06.2007, 13:18
куки то зачем?
я думаю пофиг как по ИП раскидывать запросы, алгоритмы везде одинаковые.

А они таковы, что бан происходит при повторяющихся запросах (inurl:1 inurl:2 inurl:N например) и c определнной частотой.

Таким образом имеет смысл перемешивать свои запросы (inurl:1, site:com, inurl:2, +"sign up") и не слать более 3х паралельных запросов с одного ИП адреса.

все вышесказанное относится к гуглу.

alexf2000
06.06.2007, 19:22
Куки для гугла вроде бы положительно влияют.

Virtual
06.06.2007, 20:14
тоже не раз слышал про куки и гугл... да и все остальное впринципе. :) не у все в урле передается сколько результатов в выдаче показывать на странице. А парсить по 10 результатов - не интересно совсем. :)

solar, по твоему, можно парсить используя например file_get_contents и перемешивая запросы и частоту этих запросов - обойти баны? :) помоему анриал. оно может и покатит если парсить маленькие обьемы, а вот уже для промышленных масштабов.. помоему баниться будет все.

а задумался я - ежели полностью эмулировать поведение юзера, то вероятность бана будет минимальной.. имхо..

только, мало какой реальный юзер, будет дергать первую страницу с одной ипшки, а вторую - с другой.. %) вот и спрашиваю, у кого как работают промышленные парсеры.. :) или реально никто не заморачивался, и все радужно? :)

e7x
06.06.2007, 22:51
virtual, гугл куки юзеру впихивает не для того чтобы определять бот он или организм. они нужны для того, чтобы запомнить этого пользователя и, вероятно, запомнить то что он искал. а оно тебе надо, если ты собираешься _промышленно_ парсить?
имхо, для объемного парсинга нужны либо прокси, либо дыры. а дыры имеют свойство обнаруживаться сотрудниками поисковика и, что самое печальное, закрываются.

solar
07.06.2007, 14:54
для промышленных масштабов нужны промышленные ресурсы - айпишники и прокси. Если не превышать неких пределов для запросов (вычислить их можно по опыту парсинга), то бана не будет.