Парсинг Google. Идеи и альтернативы? - Форум успешных вебмастеров - GoFuckBiz.com - Страница 2
 
 
Форум успешных вебмастеров - GoFuckBiz.com

  Форум успешных вебмастеров - GoFuckBiz.com > Бизнес-решения > Скрипты, программы и технические решения
Дата
USD/RUB88.4375
BTC/USD67560.1678
Скрипты, программы и технические решения Обсуждаем скрипты, программы и новые технологии.

Закрытая тема
Опции темы Опции просмотра
Старый 17.04.2015, 10:48
Start Post: Парсинг Google. Идеи и альтернативы? 
  #11
Hector
hustle
 
Аватар для Hector
 
Регистрация: 02.05.2008
Адрес: 3d world
Сообщений: 12,870
Бабло: $1717315
Отправить сообщение для Hector с помощью Jabber
По умолчанию

В последнее время гугл стало невозможно парсить на предмет, например, гостевых. Вопрос, как сейчас нужно парсить? Иметь пачку прокси или может есть другие решения? Я паршу бинг но результатом не удовлетворен, выдача странная у него по НЧ. Собирается один мусор. Использую хрефер.
Hector вне форума  
Старый 18.04.2015, 11:22   #12
happend
Senior Member
 
Аватар для happend
 
Регистрация: 19.07.2014
Сообщений: 155
Бабло: $38184
По умолчанию

Цитата:
Сообщение от Maximus325 Посмотреть сообщение
Ща тебе от меня стукнется чел, Брайном звать, скайп krebs1978 вроде
это фейк. он '72 года
happend вне форума  
Старый 03.03.2016, 02:44   #13
sliderxxx
Ебланнед
 
Регистрация: 20.08.2008
Сообщений: 1,064
Бабло: $153400
По умолчанию Как парсить гугл?

Давно не парсил, генерил контент, решил попробовать на сниппетах. Поделитесь как сейчас у гугла с этим. Надо под доры(сниппеты), промышленно. Паблик прокси почти все забанены в гугле. Не паблик, тоже очень быстро уходят в бан. Про сервисы, использующие выдачу гугла знаю, но интересует именно гугл, да и в этих сервисах тоже ограничения. Как парсят всякие доргены, которые на сниппетах? С паузами тоже не вариант, надо быстро и много.
sliderxxx вне форума  
Старый 03.03.2016, 10:27   #14
Hector
hustle
 
Аватар для Hector
 
Регистрация: 02.05.2008
Адрес: 3d world
Сообщений: 12,870
Бабло: $1717315
ТС -->
Отправить сообщение для Hector с помощью Jabber
автор темы ТС По умолчанию

http://www.gofuckbiz.com/showthread.php?t=42644
Правда ответа на вопрос я не нашел)) Только прокси, медленно и каптча.
Hector вне форума  
Старый 03.03.2016, 12:18   #15
TOBBOT
01010100
 
Аватар для TOBBOT
 
Регистрация: 18.03.2015
Сообщений: 177
Бабло: $27925
По умолчанию

Уже не первый раз пишу об этом: для нормального парсинга гугла нужно сохранять успешные сессии (куки, прокси, юзерагент) и далее работать с них.
TOBBOT вне форума  
Старый 03.03.2016, 12:26   #16
sliderxxx
Ебланнед
 
Регистрация: 20.08.2008
Сообщений: 1,064
Бабло: $153400
По умолчанию

Цитата:
Сообщение от TOBBOT
для нормального парсинга гугла нужно сохранять успешные сессии (куки, прокси, юзерагент) и далее работать с них.
И на сколько это отсрочит бан? Есть какие-то наблюдения по лимитам?
sliderxxx вне форума  
Старый 03.03.2016, 13:00   #17
Hector
hustle
 
Аватар для Hector
 
Регистрация: 02.05.2008
Адрес: 3d world
Сообщений: 12,870
Бабло: $1717315
ТС -->
Отправить сообщение для Hector с помощью Jabber
автор темы ТС По умолчанию

Цитата:
Сообщение от TOBBOT Посмотреть сообщение
Уже не первый раз пишу об этом: для нормального парсинга гугла нужно сохранять успешные сессии (куки, прокси, юзерагент) и далее работать с них.
Ты имеешь ввиду сохранять под конкретный прокси конкретную куку с юзерагентом?
Hector вне форума  
Старый 03.03.2016, 17:15   #18
TOBBOT
01010100
 
Аватар для TOBBOT
 
Регистрация: 18.03.2015
Сообщений: 177
Бабло: $27925
По умолчанию

Цитата:
Сообщение от Hector
Ты имеешь ввиду сохранять под конкретный прокси конкретную куку с юзерагентом?
да.

Цитата:
Сообщение от sliderxxx
И на сколько это отсрочит бан? Есть какие-то наблюдения по лимитам?
Было около 200 проксей, в 50 потоков спарсил 60к запросов с паузой в 5 сек между запросами. Без распознавания капчи.
Т.е. настройки (прокси, куки, юзергент) были привязаны к потоку. Если запрос удачный, то парсинг продолжался с теми же настройками.
TOBBOT вне форума  
Старый 03.03.2016, 18:10   #19
Koshak01
SmartFetch.io
 
Аватар для Koshak01
 
Регистрация: 08.02.2016
Адрес: moscow
Сообщений: 65
Бабло: $10690
Отправить сообщение для Koshak01 с помощью Skype™
По умолчанию

TOBBOT: 200 проксей, в 50 потоков спарсил 60к запросов с паузой в 5 сек

5 секунд после чего ?

sliderxxx: смотри у меня в подписи =)

На сегодня я делаю ежедневно около 2 000 000 запросов к гуглу( плюс минут 100 000 )

по технической части - это 30 роботов( потоки это в прошлом ) с постоянной нагрузкой( как запрос закончен, робот сразу получает новое задание из очереди)

на выходе все что есть в выдаче - снипет, урл, ссылка

про скорость Можешь спросить у форумчан, кто пользуется =)

для гугла у меня пулы - там крутится около 10 000 спутников, которые готовы принимать задания и отвечать( ну их сложно назвать проксями - но если по простому назовем их так )

Вот как то так

все спутники с историей - кукии сесии, юзерагенты - история - порядка 2х лет наверно
__________________
http://SmartFetch.io
Koshak01 вне форума  
Старый 03.03.2016, 18:13   #20
kibnet
Senior Member
 
Аватар для kibnet
 
Регистрация: 11.03.2012
Сообщений: 584
Бабло: $128055
По умолчанию

Цитата:
Сообщение от Koshak01
для гугла у меня пулы - там крутится около 10 000 спутников, которые готовы принимать задания и отвечать( ну их сложно назвать проксями - но если по простому назовем их так )
это ты про ботнет?
__________________
Автоматизирую с помощью BAS (не пишу скрипты на заказ)
rucaptcha.com - разгадает всё
kibnet вне форума  
Старый 03.03.2016, 18:17   #21
Koshak01
SmartFetch.io
 
Аватар для Koshak01
 
Регистрация: 08.02.2016
Адрес: moscow
Сообщений: 65
Бабло: $10690
Отправить сообщение для Koshak01 с помощью Skype™
По умолчанию

Цитата:
Сообщение от kibnet Посмотреть сообщение
это ты про ботнет?
бот нет это у хакеров) у меня все чисто и пушисто )

спутники - микро комп в компе) с проверкой сети - доступна не доступна )

там их намного больше - просто идея такая что если прокся на спутнике не доступна - он становится не виден для робота ) - или например гугл забанил спутник, тогда он тоже на день становится недоступный

с бот нетом я дело не имел) там же управлять им как то нужно - незнаю, наверно не для моих задач
__________________
http://SmartFetch.io
Koshak01 вне форума