Форум успешных вебмастеров - GoFuckBiz.com

  Форум успешных вебмастеров - GoFuckBiz.com > Бизнес-решения > Скрипты, программы и технические решения
Дата
USD/RUB58.8010
BTC/USD0.0000
Скрипты, программы и технические решения Обсуждаем скрипты, программы и новые технологии.

Закрытая тема
Опции темы Опции просмотра
Старый 05.06.2007, 18:33   #1
Virtual
Юниор
 
Регистрация: 25.04.2007
Сообщений: 14
Бабло: $500
По умолчанию Парсинг Gym... баны ипшек.

Задумался я по банам ипшек.. Может, у кого есть опыт, если скажем с ИП1 дернуть первую страницу выдачи у гугли по кею guestbook, и потом сразу же с ИП2 дернуть вторую страницу выдачи по этому же кею - велика вероятность бана? Естественно, двумя запросами все не ограничивается.. пару лямов запросов на 16 ипшек скажем.

Или стоит эмулировать точное поведение юзера - дернул первую страницу с ИП1 - и продолжать дергать остальные с этой же ипшки, поддерживая куки и т.д. с некоторыми задержками?

Кто как считает? Интересует как добиться минимальной вероятности бана ипшки гуглей и т.п..

И.. наверное филосовский вопрос - идеальный парсер - какие функции должен содержать в себе?
Virtual вне форума  
Старый 06.06.2007, 12:18   #2
solar
Senior Member
 
Регистрация: 04.04.2007
Сообщений: 607
Бабло: $7700
По умолчанию

куки то зачем?
я думаю пофиг как по ИП раскидывать запросы, алгоритмы везде одинаковые.

А они таковы, что бан происходит при повторяющихся запросах (inurl:1 inurl:2 inurl:N например) и c определнной частотой.

Таким образом имеет смысл перемешивать свои запросы (inurl:1, site:com, inurl:2, +"sign up") и не слать более 3х паралельных запросов с одного ИП адреса.

все вышесказанное относится к гуглу.
solar вне форума  
Старый 06.06.2007, 18:22   #3
alexf2000
Senior Member
 
Аватар для alexf2000
 
Регистрация: 04.04.2007
Сообщений: 266
Бабло: $3333
По умолчанию

Куки для гугла вроде бы положительно влияют.
alexf2000 вне форума  
Старый 06.06.2007, 19:14   #4
Virtual
Юниор
 
Регистрация: 25.04.2007
Сообщений: 14
Бабло: $500
ТС -->
автор темы ТС По умолчанию

тоже не раз слышал про куки и гугл... да и все остальное впринципе. не у все в урле передается сколько результатов в выдаче показывать на странице. А парсить по 10 результатов - не интересно совсем.

solar, по твоему, можно парсить используя например file_get_contents и перемешивая запросы и частоту этих запросов - обойти баны? помоему анриал. оно может и покатит если парсить маленькие обьемы, а вот уже для промышленных масштабов.. помоему баниться будет все.

а задумался я - ежели полностью эмулировать поведение юзера, то вероятность бана будет минимальной.. имхо..

только, мало какой реальный юзер, будет дергать первую страницу с одной ипшки, а вторую - с другой.. %) вот и спрашиваю, у кого как работают промышленные парсеры.. или реально никто не заморачивался, и все радужно?
Virtual вне форума  
Старый 06.06.2007, 21:51   #5
e7x
Юниор
 
Регистрация: 24.04.2007
Сообщений: 9
Бабло: $1740
Отправить сообщение для e7x с помощью ICQ
По умолчанию

virtual, гугл куки юзеру впихивает не для того чтобы определять бот он или организм. они нужны для того, чтобы запомнить этого пользователя и, вероятно, запомнить то что он искал. а оно тебе надо, если ты собираешься _промышленно_ парсить?
имхо, для объемного парсинга нужны либо прокси, либо дыры. а дыры имеют свойство обнаруживаться сотрудниками поисковика и, что самое печальное, закрываются.
__________________
code is poetry
e7x вне форума  
Старый 07.06.2007, 13:54   #6
solar
Senior Member
 
Регистрация: 04.04.2007
Сообщений: 607
Бабло: $7700
По умолчанию

для промышленных масштабов нужны промышленные ресурсы - айпишники и прокси. Если не превышать неких пределов для запросов (вычислить их можно по опыту парсинга), то бана не будет.
solar вне форума