Парсинг выдачи гугл. - Форум успешных вебмастеров - GoFuckBiz.com
 
 
Форум успешных вебмастеров - GoFuckBiz.com

  Форум успешных вебмастеров - GoFuckBiz.com > Бизнес-решения > Поисковые системы
Дата
USD/RUB93.4409
BTC/USD64746.6221
Поисковые системы Поисковая оптимизация под Google, Yahoo, Bing и т.д.

Закрытая тема
Опции темы Опции просмотра
Старый 14.09.2008, 01:09   #1
Dyachek
Senior Member
 
Аватар для Dyachek
 
Регистрация: 30.03.2008
Сообщений: 371
Бабло: $30090
По умолчанию Парсинг выдачи гугл.

Спасибо. Не актуально.
__________________

Последний раз редактировалось Dyachek; 14.09.2008 в 17:47.
Dyachek вне форума  
Старый 14.09.2008, 02:12   #2
WebNinja
grablab.org
 
Аватар для WebNinja
 
Регистрация: 18.09.2007
Адрес: Thailand
Сообщений: 4,893
Бабло: $322264
Отправить сообщение для WebNinja с помощью ICQ Отправить сообщение для WebNinja с помощью Skype™
По умолчанию

есть мнение что гугл привыкает постепенно, если много идет запросов без использования специальных операторов.
__________________
www.imscraping.ninja
grablab.org | blog
WebNinja вне форума  
Старый 14.09.2008, 02:36   #3
solar
Senior Member
 
Регистрация: 04.04.2007
Сообщений: 601
Бабло: $7700
По умолчанию

правила успешного парсинга:

С одного айпи не больше 2-3 запросов в секунду, может даже 1, попробуй.
Подбирай правильно юзер агента и все заголовки.
Операторы используй как можно реже.
Чем более разнообразнее запросы, тем меньше веротятность бана.
Используй прокси.
solar вне форума  
Старый 14.09.2008, 11:13   #4
kip
Senior Member
 
Аватар для kip
 
Регистрация: 06.05.2007
Сообщений: 477
Бабло: $70325
Отправить сообщение для kip с помощью ICQ
По умолчанию

Я использую timeout в 4 секунды и не чувствую никаких проблем =)
__________________
Cloacking под любой источник трафика. Сдаю в аренду.
kip вне форума  
Старый 14.09.2008, 12:32   #5
Dem0kratizat0r
Senior Member
 
Аватар для Dem0kratizat0r
 
Регистрация: 27.04.2007
Сообщений: 1,681
Бабло: $163746
По умолчанию

Цитата:
Сообщение от kip Посмотреть сообщение
Я использую timeout в 4 секунды и не чувствую никаких проблем =)
круто

У меня такая схема работает с 17 секундами. Наверное от ip зависит.
Ведь и правда, если пров посадил кучу народа за NATом или прозрачно проксирует весь трафик, то народ заебётся капчу вводить. Гугля это видимо как-то заложила в своих алгоритмах.
__________________
Mini Bluetooth Speaker
Dem0kratizat0r вне форума  
Старый 14.09.2008, 17:48   #6
Dyachek
Senior Member
 
Аватар для Dyachek
 
Регистрация: 30.03.2008
Сообщений: 371
Бабло: $30090
ТС -->
автор темы ТС По умолчанию

Спасибо.
__________________
Dyachek вне форума  
Старый 18.09.2008, 23:20   #7
termi
Member
 
Аватар для termi
 
Регистрация: 16.10.2007
Сообщений: 77
Бабло: $9810
По умолчанию

у меня с одного ип тоже примерно 20 секунд задержка без бана, точно не измерял но это наверное с использованием спец операторов типа инурл. во всяком случае у меня) Мне вот тоже показалось, что гугл смотрит схожесть запросов и может забанить на тип запроса и при этом давайть выдачу на обычный текстовый запрос. например, жесткий бан идет по запросу site:user.blogohosting.com/script.php , таким запросом, кто не понял вытаксиваются параметры скрипта. через прокси сервис ваще ни разу выдачу не выдал, только со своего компа.
пс: жаль, что у гугла своего сёрч апи нет, вот яху в этом плане радует, даже сайтэксплорер апи есть, Бэки вытаскиваются на ура, но опять же только 1к)
termi вне форума  
Старый 19.09.2008, 20:42   #8
mr_codec
Юниор
 
Регистрация: 02.07.2008
Сообщений: 22
Бабло: $2140
По умолчанию

подскажите где раздобыть парсер который бы выдирал описания сайтов из гугла по заданному ключевику
__________________
Тут красиииво
mr_codec вне форума  
Старый 19.09.2008, 20:57   #9
ziavra
Senior Member
 
Регистрация: 10.04.2007
Адрес: Balifor
Сообщений: 468
Бабло: $29318
По умолчанию

Цитата:
Сообщение от termi Посмотреть сообщение
у меня с одного ип тоже примерно 20 секунд задержка без бана, точно не измерял но это наверное с использованием спец операторов типа инурл. во всяком случае у меня) Мне вот тоже показалось, что гугл смотрит схожесть запросов и может забанить на тип запроса и при этом давайть выдачу на обычный текстовый запрос. например, жесткий бан идет по запросу site:user.blogohosting.com/script.php , таким запросом, кто не понял вытаксиваются параметры скрипта. через прокси сервис ваще ни разу выдачу не выдал, только со своего компа.
пс: жаль, что у гугла своего сёрч апи нет, вот яху в этом плане радует, даже сайтэксплорер апи есть, Бэки вытаскиваются на ура, но опять же только 1к)
У него есть api, только для него ключи уже порядка года не раздают.
ziavra вне форума