Как сейчас парсится с hrefer? - Форум успешных вебмастеров - GoFuckBiz.com
 
 
Форум успешных вебмастеров - GoFuckBiz.com

  Форум успешных вебмастеров - GoFuckBiz.com > Бизнес-решения > Скрипты, программы и технические решения
Дата
USD/RUB93.4409
BTC/USD64323.0675
Скрипты, программы и технические решения Обсуждаем скрипты, программы и новые технологии.

Закрытая тема
Опции темы Опции просмотра
Старый 15.10.2012, 08:31   #1
Blanc
Member
 
Аватар для Blanc
 
Регистрация: 06.11.2009
Сообщений: 509
Бабло: $110830
По умолчанию Как сейчас парсится с hrefer?

Всем доброй ночи.
Какие ньюансы нужно учитывать при парсинге гугла hreferom?
Допустим у меня статический ip
Как я могу напарсить приличную базу по inurl?
Помню парсил, было проблематично, какой функционал обхода защиты использовать? Антигейт помогает расшифровки капчи. Там ведь есть антибан какой-то.
Или, может, проксей взять? Где их можно взять нормальных под гугл? Спалите плз.
Blanc вне форума  
Старый 15.10.2012, 11:33   #2
Botmaster
Senior Member
 
Аватар для Botmaster
 
Регистрация: 01.07.2007
Сообщений: 1,005
Бабло: $142100
По умолчанию

Есть как минимум 3 варианта, и они используются во многих парсерах, а не только в Hrefer-е.

1. Не пользоваться inurl вообще.
Никто не мешает парсить без этого ключа, используя какие-то доп.признаки, а фильтровать по маске ссылки уже пост-фактум, для этого в Hrefer-е есть Sieve-filter

2. Парсить зеркала Гугла
В сети есть море зеркал - поисковиков, использующих API Гугла, но не банящих за inurl, мы какое-то время назад подключили большое число таких поисковиков в Hrefer, и опр.время это прекрасно работало, но естественно это временное решение - со временем админы этих зеркал приняли меры против парсинга. Теперь мы на паблик эти поисковики к программе не подключаем, т.к. всё равно их убивают в считанные дни

3. Использовать много хороших и часто обновляемых прокси
Тут должно быть всё понятно.

4. Шаманство с форматом запросов
Ещё некоторые юзеры формируют запросы Гуглу особым образом, чтобы минимизировать бан по IP, недавно у нас был опубликован один из таких способов, подробности можно узнать у тех.поддержки

Последний раз редактировалось Moderator; 19.10.2012 в 13:25.
Botmaster вне форума  
Старый 15.10.2012, 12:52   #3
excl
Senior Member
 
Аватар для excl
 
Регистрация: 24.06.2007
Сообщений: 5,010
Бабло: $3617161
По умолчанию

Цитата:
Сообщение от Blanc Посмотреть сообщение
Или, может, проксей взять? Где их можно взять нормальных под гугл? Спалите плз.
Собирать с фри паблик сервисов, либо же купить сразу.
excl вне форума  
Старый 15.10.2012, 13:12   #4
Blanc
Member
 
Аватар для Blanc
 
Регистрация: 06.11.2009
Сообщений: 509
Бабло: $110830
ТС -->
автор темы ТС По умолчанию

Цитата:
Сообщение от excl Посмотреть сообщение
Собирать с фри паблик сервисов, либо же купить сразу.
А где купить, чтобы не выкинуть деньги на ветер?
Blanc вне форума  
Старый 15.10.2012, 14:03   #5
excl
Senior Member
 
Аватар для excl
 
Регистрация: 24.06.2007
Сообщений: 5,010
Бабло: $3617161
По умолчанию

Их масса и цены высокие. В личку скинул.
excl вне форума  
Старый 15.10.2012, 16:56   #6
dady
Senior Medved
 
Аватар для dady
 
Регистрация: 15.06.2008
Сообщений: 4,146
Бабло: $22479945
По умолчанию

У форбиддена отличные прокси.
__________________
Аппрув США >91% и Европа >90% Сливай фарму на Pharmcash - получай хрустящий кэш! / Спонсор! Докажи, что твоя партнерка №1 / 2019
dady вне форума  
Старый 09.03.2013, 12:54   #7
desert-eagle
Senior Member
 
Аватар для desert-eagle
 
Регистрация: 23.08.2010
Сообщений: 155
Бабло: $35255
По умолчанию

сто лет не парсил гугла, тут понадобилось, раньше чтоб он выдавал по 100 результатов на страницу долбил на урл кастомного поиска - _http://www.google.com/cse?q=
сейчас вижу что он сразу редайректит на обычный поиск. Вопрос, есть еще что то где он по 100 результатов выводит?
desert-eagle вне форума  
Старый 09.03.2013, 13:31   #8
Painkiller
Senior Member
 
Регистрация: 09.01.2010
Адрес: ☭
Сообщений: 203
Бабло: $39450
По умолчанию

Цитата:
Сообщение от desert-eagle Посмотреть сообщение
сто лет не парсил гугла, тут понадобилось, раньше чтоб он выдавал по 100 результатов на страницу долбил на урл кастомного поиска - _http://www.google.com/cse?q=
сейчас вижу что он сразу редайректит на обычный поиск. Вопрос, есть еще что то где он по 100 результатов выводит?
генерил куку, вот как то так
PHP код:
void generate_google_session(sock_obj *sk)
{
    static const 
char buff[] = "1234567890abcdef";
    
char ses1 [sizeof(buff)]  = {0};
    
char ses2 [sizeof(buff)]  = {0};
    
//PREF=ID=18c5a1eaca7e70bd:U=f7cba9228c87616a:FF=0:LD=ru:NR=100;
    
for (size_t i=0i<sizeof(buff)-1; ++i) {
        
ses1[i] = buff[rand(015)];
        
ses2[i] = buff[rand(015)];
    }
    
std::string result "PREF=ID=";
    
result+= ses1;
    
result+= ":U=f7";
    
result+= ses2;
    
result+= ":FF=0:LD=en:NR=100;\r\n";
    
    
sk->write_head_buff(result);

Painkiller вне форума  
Старый 02.09.2013, 19:32   #9
Hector
hustle
 
Аватар для Hector
 
Регистрация: 02.05.2008
Адрес: 3d world
Сообщений: 12,890
Бабло: $1717315
Отправить сообщение для Hector с помощью Jabber
По умолчанию

Botmaster, почему не ведется поддержка хрефера? Из всех поисковиков заявленных в программе работает (парсится) только несколько.
Hector вне форума  
Старый 02.09.2013, 19:58   #10
Sultan
Шучу на половину
 
Аватар для Sultan
 
Регистрация: 23.01.2011
Сообщений: 5,783
Бабло: $1157790
По умолчанию

del

Последний раз редактировалось Sultan; 02.09.2013 в 20:07.
Sultan вне форума