Как нынче парсить Google? - Форум успешных вебмастеров - GoFuckBiz.com
 
 
Форум успешных вебмастеров - GoFuckBiz.com

  Форум успешных вебмастеров - GoFuckBiz.com > Бизнес-решения > Скрипты, программы и технические решения
Дата
USD/RUB93.4409
BTC/USD64732.6476
Скрипты, программы и технические решения Обсуждаем скрипты, программы и новые технологии.

Закрытая тема
Опции темы Опции просмотра
Старый 25.10.2016, 09:58   #1
Nostikov
Senior Member
 
Аватар для Nostikov
 
Регистрация: 14.04.2008
Сообщений: 318
Бабло: $65850
Question Как нынче парсить Google?

Гугл прямо очень жестко последнее время себя ведет
нужно всего-то смотреть выдачу site:
работаю через прокси , скрипт работает раз в минуту, внутри скрипта sleep
- банит нещадно.

до смешного - руками вбил вчера раз 20
site:xxxxxx.com
так мой IP (dynamic shared на полгорода) - бан, и без капчи. только сегодня ожил

как быть то?


упс, сорри не в ту ветку, перенесите плз
Nostikov вне форума  
Старый 25.10.2016, 12:22   #2
digg
$400
 
Аватар для digg
 
Регистрация: 17.05.2009
Сообщений: 13,948
Бабло: $1895360
Отправить сообщение для digg с помощью ICQ
По умолчанию

1 айпи = 1 выдача = 1 сутки
а если они не будут этого делать, то их зверо алгоритм со всеми их зоопарками сожрет ресурсов больше чем им реклама принесет
digg на форуме  
Старый 25.10.2016, 12:24   #3
x999xx
xx999x
 
Аватар для x999xx
 
Регистрация: 20.12.2010
Сообщений: 2,215
Бабло: $473391
По умолчанию

go to google.com

да заходишь в выдачу, ctrl-s - сохранить, сохраняешь так все страницы
А потом обычным grep ссылки собираешь ))))
__________________
я знаю стабильный курс на будущее eur/(usd+0.001) + usd/(eur+0.00101) = 0 ( )
x999xx вне форума  
Старый 25.10.2016, 12:55   #4
Nostikov
Senior Member
 
Аватар для Nostikov
 
Регистрация: 14.04.2008
Сообщений: 318
Бабло: $65850
ТС -->
автор темы ТС По умолчанию

x999xx, с удовольствием так и делал бы, только для разных сайтов выдачу надо запрашивать)
Nostikov вне форума  
Старый 25.10.2016, 14:26   #5
Botmaster
Senior Member
 
Аватар для Botmaster
 
Регистрация: 01.07.2007
Сообщений: 1,005
Бабло: $142100
По умолчанию

Можно варьировать юзер-агенты и ещё некоторые другие нюансы HTTP-запроса. Использовать много хороших SOCKS-ов.

Новый Hrefer 5.0.1 обходит капчи Гугла (и Яндекса) в выдаче на автомате.
Botmaster вне форума  
Старый 25.10.2016, 17:16   #6
digg
$400
 
Аватар для digg
 
Регистрация: 17.05.2009
Сообщений: 13,948
Бабло: $1895360
Отправить сообщение для digg с помощью ICQ
По умолчанию

суть в том, что даже соксы не спасают
ничего не спасает, особенно если в запросе присутствуют site: inurl: intitle: и тд
дает 10-15 результатов если выдача по 10 стр - потом капча
а если по 100 стр и то меньше
и к тому же режет выдачу из скажем 1кк результатов показывает 3 стр по 100 - в этом случае хоть по буквам перебирай под супер дорогими соксами и рекапчами всякими
раньше к примеру можно было выпарсить до 8-9 стр по 100

я не думаю что им до такой степени жалко, скорее всего кол-во страниц в инете стало таким большим, что серверное время на их обработку не дешевое выходит из-за этого
digg на форуме