Просмотр полной версии : Парсинг Gym... баны ипшек.
Задумался я по банам ипшек.. Может, у кого есть опыт, если скажем с ИП1 дернуть первую страницу выдачи у гугли по кею guestbook, и потом сразу же с ИП2 дернуть вторую страницу выдачи по этому же кею - велика вероятность бана? Естественно, двумя запросами все не ограничивается.. пару лямов запросов на 16 ипшек скажем. :)
Или стоит эмулировать точное поведение юзера - дернул первую страницу с ИП1 - и продолжать дергать остальные с этой же ипшки, поддерживая куки и т.д. с некоторыми задержками?
Кто как считает? Интересует как добиться минимальной вероятности бана ипшки гуглей и т.п.. :)
И.. наверное филосовский вопрос - идеальный парсер - какие функции должен содержать в себе? :)
куки то зачем?
я думаю пофиг как по ИП раскидывать запросы, алгоритмы везде одинаковые.
А они таковы, что бан происходит при повторяющихся запросах (inurl:1 inurl:2 inurl:N например) и c определнной частотой.
Таким образом имеет смысл перемешивать свои запросы (inurl:1, site:com, inurl:2, +"sign up") и не слать более 3х паралельных запросов с одного ИП адреса.
все вышесказанное относится к гуглу.
alexf2000
06.06.2007, 19:22
Куки для гугла вроде бы положительно влияют.
тоже не раз слышал про куки и гугл... да и все остальное впринципе. :) не у все в урле передается сколько результатов в выдаче показывать на странице. А парсить по 10 результатов - не интересно совсем. :)
solar, по твоему, можно парсить используя например file_get_contents и перемешивая запросы и частоту этих запросов - обойти баны? :) помоему анриал. оно может и покатит если парсить маленькие обьемы, а вот уже для промышленных масштабов.. помоему баниться будет все.
а задумался я - ежели полностью эмулировать поведение юзера, то вероятность бана будет минимальной.. имхо..
только, мало какой реальный юзер, будет дергать первую страницу с одной ипшки, а вторую - с другой.. %) вот и спрашиваю, у кого как работают промышленные парсеры.. :) или реально никто не заморачивался, и все радужно? :)
virtual, гугл куки юзеру впихивает не для того чтобы определять бот он или организм. они нужны для того, чтобы запомнить этого пользователя и, вероятно, запомнить то что он искал. а оно тебе надо, если ты собираешься _промышленно_ парсить?
имхо, для объемного парсинга нужны либо прокси, либо дыры. а дыры имеют свойство обнаруживаться сотрудниками поисковика и, что самое печальное, закрываются.
для промышленных масштабов нужны промышленные ресурсы - айпишники и прокси. Если не превышать неких пределов для запросов (вычислить их можно по опыту парсинга), то бана не будет.
Работает на vBulletin® версия 3.7.1. Copyright ©2000-2008, Jelsoft Enterprises Ltd. Перевод: zCarot