Форум успешных вебмастеров - GoFuckBiz.com

  Форум успешных вебмастеров - GoFuckBiz.com > Бизнес-решения > Скрипты, программы и технические решения
Дата
USD/RUB59.1910
BTC/USD0.0000
Скрипты, программы и технические решения Обсуждаем скрипты, программы и новые технологии.

Закрытая тема
Опции темы Опции просмотра
Старый 15.10.2012, 08:31   #1
Blanc
Member
 
Аватар для Blanc
 
Регистрация: 06.11.2009
Сообщений: 402
Бабло: $96465
По умолчанию Как сейчас парсится с hrefer?

Всем доброй ночи.
Какие ньюансы нужно учитывать при парсинге гугла hreferom?
Допустим у меня статический ip
Как я могу напарсить приличную базу по inurl?
Помню парсил, было проблематично, какой функционал обхода защиты использовать? Антигейт помогает расшифровки капчи. Там ведь есть антибан какой-то.
Или, может, проксей взять? Где их можно взять нормальных под гугл? Спалите плз.
Blanc вне форума  
Старый 15.10.2012, 11:33   #2
Botmaster
Senior Member
 
Аватар для Botmaster
 
Регистрация: 01.07.2007
Сообщений: 704
Бабло: $103595
По умолчанию

Есть как минимум 3 варианта, и они используются во многих парсерах, а не только в Hrefer-е.

1. Не пользоваться inurl вообще.
Никто не мешает парсить без этого ключа, используя какие-то доп.признаки, а фильтровать по маске ссылки уже пост-фактум, для этого в Hrefer-е есть Sieve-filter

2. Парсить зеркала Гугла
В сети есть море зеркал - поисковиков, использующих API Гугла, но не банящих за inurl, мы какое-то время назад подключили большое число таких поисковиков в Hrefer, и опр.время это прекрасно работало, но естественно это временное решение - со временем админы этих зеркал приняли меры против парсинга. Теперь мы на паблик эти поисковики к программе не подключаем, т.к. всё равно их убивают в считанные дни

3. Использовать много хороших и часто обновляемых прокси
Тут должно быть всё понятно.

4. Шаманство с форматом запросов
Ещё некоторые юзеры формируют запросы Гуглу особым образом, чтобы минимизировать бан по IP, недавно у нас был опубликован один из таких способов, подробности можно узнать у тех.поддержки

Последний раз редактировалось Moderator; 19.10.2012 в 13:25.
Botmaster на форуме  
Старый 15.10.2012, 12:52   #3
excl
Senior Member
 
Аватар для excl
 
Регистрация: 24.06.2007
Сообщений: 3,695
Бабло: $3447246
Отправить сообщение для excl с помощью ICQ
По умолчанию

Цитата:
Сообщение от Blanc Посмотреть сообщение
Или, может, проксей взять? Где их можно взять нормальных под гугл? Спалите плз.
Собирать с фри паблик сервисов, либо же купить сразу.
excl на форуме  
Старый 15.10.2012, 13:12   #4
Blanc
Member
 
Аватар для Blanc
 
Регистрация: 06.11.2009
Сообщений: 402
Бабло: $96465
ТС -->
автор темы ТС По умолчанию

Цитата:
Сообщение от excl Посмотреть сообщение
Собирать с фри паблик сервисов, либо же купить сразу.
А где купить, чтобы не выкинуть деньги на ветер?
Blanc вне форума  
Старый 15.10.2012, 14:03   #5
excl
Senior Member
 
Аватар для excl
 
Регистрация: 24.06.2007
Сообщений: 3,695
Бабло: $3447246
Отправить сообщение для excl с помощью ICQ
По умолчанию

Их масса и цены высокие. В личку скинул.
excl на форуме  
Старый 15.10.2012, 16:56   #6
dady
Senior Medved
 
Аватар для dady
 
Регистрация: 15.06.2008
Сообщений: 4,140
Бабло: $22472130
По умолчанию

У форбиддена отличные прокси.
dady вне форума  
Старый 09.03.2013, 12:54   #7
desert-eagle
Senior Member
 
Аватар для desert-eagle
 
Регистрация: 23.08.2010
Сообщений: 149
Бабло: $32480
По умолчанию

сто лет не парсил гугла, тут понадобилось, раньше чтоб он выдавал по 100 результатов на страницу долбил на урл кастомного поиска - _http://www.google.com/cse?q=
сейчас вижу что он сразу редайректит на обычный поиск. Вопрос, есть еще что то где он по 100 результатов выводит?
desert-eagle вне форума  
Старый 09.03.2013, 13:31   #8
Painkiller
Senior Member
 
Регистрация: 09.01.2010
Адрес: ☭
Сообщений: 201
Бабло: $38120
По умолчанию

Цитата:
Сообщение от desert-eagle Посмотреть сообщение
сто лет не парсил гугла, тут понадобилось, раньше чтоб он выдавал по 100 результатов на страницу долбил на урл кастомного поиска - _http://www.google.com/cse?q=
сейчас вижу что он сразу редайректит на обычный поиск. Вопрос, есть еще что то где он по 100 результатов выводит?
генерил куку, вот как то так
PHP код:
void generate_google_session(sock_obj *sk)
{
    static const 
char buff[] = "1234567890abcdef";
    
char ses1 [sizeof(buff)]  = {0};
    
char ses2 [sizeof(buff)]  = {0};
    
//PREF=ID=18c5a1eaca7e70bd:U=f7cba9228c87616a:FF=0:LD=ru:NR=100;
    
for (size_t i=0i<sizeof(buff)-1; ++i) {
        
ses1[i] = buff[rand(015)];
        
ses2[i] = buff[rand(015)];
    }
    
std::string result "PREF=ID=";
    
result+= ses1;
    
result+= ":U=f7";
    
result+= ses2;
    
result+= ":FF=0:LD=en:NR=100;\r\n";
    
    
sk->write_head_buff(result);

Painkiller вне форума  
Старый 02.09.2013, 19:32   #9
Hector
Статус кво
 
Аватар для Hector
 
Регистрация: 02.05.2008
Адрес: California
Сообщений: 11,252
Бабло: $1447290
Отправить сообщение для Hector с помощью ICQ
По умолчанию

Botmaster, почему не ведется поддержка хрефера? Из всех поисковиков заявленных в программе работает (парсится) только несколько.
__________________
----
Hector вне форума  
Старый 02.09.2013, 19:58   #10
Sultan
на позитиве!
 
Аватар для Sultan
 
Регистрация: 23.01.2011
Сообщений: 1,702
Бабло: $301615
По умолчанию

del

Последний раз редактировалось Sultan; 02.09.2013 в 20:07.
Sultan вне форума  
Закрытая тема



Опции темы
Опции просмотра