|
| Дата |
|
USD/RUB | 88.4375 | BTC/USD | 67560.1678 |
|
|
|
Скрипты, программы и технические решения Обсуждаем скрипты, программы и новые технологии. |
17.04.2015, 10:48
|
Start Post: Парсинг Google. Идеи и альтернативы?
|
hustle
Регистрация: 02.05.2008
Адрес: 3d world
Сообщений: 12,870
Бабло: $1717315
|
В последнее время гугл стало невозможно парсить на предмет, например, гостевых. Вопрос, как сейчас нужно парсить? Иметь пачку прокси или может есть другие решения? Я паршу бинг но результатом не удовлетворен, выдача странная у него по НЧ. Собирается один мусор. Использую хрефер.
|
|
|
18.04.2015, 11:22
|
#12
|
Senior Member
Регистрация: 19.07.2014
Сообщений: 155
Бабло: $38184
|
Цитата:
Сообщение от Maximus325
Ща тебе от меня стукнется чел, Брайном звать, скайп krebs1978 вроде
|
это фейк. он '72 года
|
|
|
03.03.2016, 02:44
|
#13
|
Ебланнед
Регистрация: 20.08.2008
Сообщений: 1,064
Бабло: $153400
|
Как парсить гугл?
Давно не парсил, генерил контент, решил попробовать на сниппетах. Поделитесь как сейчас у гугла с этим. Надо под доры(сниппеты), промышленно. Паблик прокси почти все забанены в гугле. Не паблик, тоже очень быстро уходят в бан. Про сервисы, использующие выдачу гугла знаю, но интересует именно гугл, да и в этих сервисах тоже ограничения. Как парсят всякие доргены, которые на сниппетах? С паузами тоже не вариант, надо быстро и много.
|
|
|
03.03.2016, 12:18
|
#15
|
01010100
Регистрация: 18.03.2015
Сообщений: 177
Бабло: $27925
|
Уже не первый раз пишу об этом: для нормального парсинга гугла нужно сохранять успешные сессии (куки, прокси, юзерагент) и далее работать с них.
|
|
|
03.03.2016, 12:26
|
#16
|
Ебланнед
Регистрация: 20.08.2008
Сообщений: 1,064
Бабло: $153400
|
Цитата:
Сообщение от TOBBOT
для нормального парсинга гугла нужно сохранять успешные сессии (куки, прокси, юзерагент) и далее работать с них.
|
И на сколько это отсрочит бан? Есть какие-то наблюдения по лимитам?
|
|
|
03.03.2016, 13:00
|
#17
|
hustle
Регистрация: 02.05.2008
Адрес: 3d world
Сообщений: 12,870
Бабло: $1717315
ТС -->
|
ТС
Цитата:
Сообщение от TOBBOT
Уже не первый раз пишу об этом: для нормального парсинга гугла нужно сохранять успешные сессии (куки, прокси, юзерагент) и далее работать с них.
|
Ты имеешь ввиду сохранять под конкретный прокси конкретную куку с юзерагентом?
|
|
|
03.03.2016, 17:15
|
#18
|
01010100
Регистрация: 18.03.2015
Сообщений: 177
Бабло: $27925
|
Цитата:
Сообщение от Hector
Ты имеешь ввиду сохранять под конкретный прокси конкретную куку с юзерагентом?
|
да.
Цитата:
Сообщение от sliderxxx
И на сколько это отсрочит бан? Есть какие-то наблюдения по лимитам?
|
Было около 200 проксей, в 50 потоков спарсил 60к запросов с паузой в 5 сек между запросами. Без распознавания капчи.
Т.е. настройки (прокси, куки, юзергент) были привязаны к потоку. Если запрос удачный, то парсинг продолжался с теми же настройками.
|
|
|
03.03.2016, 18:10
|
#19
|
SmartFetch.io
Регистрация: 08.02.2016
Адрес: moscow
Сообщений: 65
Бабло: $10690
|
TOBBOT: 200 проксей, в 50 потоков спарсил 60к запросов с паузой в 5 сек
5 секунд после чего ?
sliderxxx: смотри у меня в подписи =)
На сегодня я делаю ежедневно около 2 000 000 запросов к гуглу( плюс минут 100 000 )
по технической части - это 30 роботов( потоки это в прошлом ) с постоянной нагрузкой( как запрос закончен, робот сразу получает новое задание из очереди)
на выходе все что есть в выдаче - снипет, урл, ссылка
про скорость Можешь спросить у форумчан, кто пользуется =)
для гугла у меня пулы - там крутится около 10 000 спутников, которые готовы принимать задания и отвечать( ну их сложно назвать проксями - но если по простому назовем их так )
Вот как то так
все спутники с историей - кукии сесии, юзерагенты - история - порядка 2х лет наверно
|
|
|
03.03.2016, 18:13
|
#20
|
Senior Member
Регистрация: 11.03.2012
Сообщений: 584
Бабло: $128055
|
Цитата:
Сообщение от Koshak01
для гугла у меня пулы - там крутится около 10 000 спутников, которые готовы принимать задания и отвечать( ну их сложно назвать проксями - но если по простому назовем их так )
|
это ты про ботнет?
|
|
|
03.03.2016, 18:17
|
#21
|
SmartFetch.io
Регистрация: 08.02.2016
Адрес: moscow
Сообщений: 65
Бабло: $10690
|
Цитата:
Сообщение от kibnet
это ты про ботнет?
|
бот нет это у хакеров) у меня все чисто и пушисто )
спутники - микро комп в компе) с проверкой сети - доступна не доступна )
там их намного больше - просто идея такая что если прокся на спутнике не доступна - он становится не виден для робота ) - или например гугл забанил спутник, тогда он тоже на день становится недоступный
с бот нетом я дело не имел) там же управлять им как то нужно - незнаю, наверно не для моих задач
|
|
|
|