|
| Дата |
|
USD/RUB | 88.4375 | BTC/USD | 68049.7798 |
|
|
|
Скрипты, программы и технические решения Обсуждаем скрипты, программы и новые технологии. |
15.04.2011, 00:50
|
Start Post: Парсер подсказок Гугла
|
Mr. Lucky Guy
Регистрация: 27.07.2010
Адрес: RU -> DE -> Asia
Сообщений: 706
Бабло: $175270
|
Пробывал Словодёр, но он некорректно работает с немецкими умлаутами ü,ö,ä,ß, выдаёт ошибку получения данных.
Вот это тоже не катит, т.к. заточен под hl=en, а мне нужно под hl=de
Может, подскажет кто что-нибудь путёвое?
|
|
|
15.04.2011, 19:37
|
#22
|
Senior Member
Регистрация: 08.07.2007
Сообщений: 177
Бабло: $34565
|
PHP код:
<?php
########################################
## собираем подсказки гугла
##
########################################
set_time_limit(300);
$lang = 'de'; //язык запросов.
$file = file("keywords.txt");
$context = stream_context_create(
array('http'=>array('header' => "User-Agent: Mozilla/4.0 (Windows 98; US) Opera 10.00\r\n"
."Accept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.7\r\n"
."Connection: Close\r\n\r\n")));
foreach ($file as $keyword) {
$keyword = trim($keyword);
$keyword = urlencode($keyword);
$url2google = 'http://www.google.com/complete/search?hl='.$lang.'&js=true&qu='.$keyword;
$key_adds = array('+1','+2','+3','+4','+5','+6','+7','+8','+9','+0',
'+a','+b','+c','+d','+e','+f','+g','+h','+i','+j','+k',
'+l','+m','+n','+o','+p','+q','+r','+s','+t','+u','+v',
'+w','+x','+y','+z');
$sugg_data = file_get_contents($url2google, false, $context);
foreach ($key_adds as $value){
$sugg_data .= file_get_contents($url2google.$value, false, $context);
}
preg_match_all('/\[\[.*?\]\]/',$sugg_data,$sugg_tmp);
$sugg_tmp2 = implode(' ',$sugg_tmp[0]);
preg_match_all('/\["(.*?)",/',$sugg_tmp2,$sugg_fin);
$output = implode("\r\n",$sugg_fin[1])."\r\n";
//$output = iconv("ISO-8859-1","UTF-8",$output);
file_put_contents("result.txt", $output, FILE_APPEND);
}
?>
вот так вроде будет не зависить от языка и все будет в утф-8.
пс каждому языку свои буковки!
|
|
|
15.04.2011, 20:19
|
#23
|
$400
Регистрация: 17.05.2009
Сообщений: 14,021
Бабло: $1906310
|
еще бы сразу по иснайту проверял каждый кей, есть ли по нему траф?
|
|
|
16.04.2011, 18:36
|
#24
|
Курю прах Ленина...
Регистрация: 10.04.2011
Сообщений: 45
Бабло: $9500
|
Интересует откуда взяли урл http://www.google.com/complete/searc.....&js=true&qu=...
Смотрю код страницы гугла и не вижу даже намёка на эту страницу
Просто хотел бы под яндекс написать такой парсер, но там не могу найти место откуда парсить подсказки или же там нужно писать парсер с интерпритацией JS кода?
|
|
|
16.04.2011, 19:30
|
#25
|
Senior Member
Регистрация: 02.07.2010
Сообщений: 213
Бабло: $45115
|
Цитата:
Сообщение от 0xJah
Интересует откуда взяли урл http://www.google.com/complete/searc.....&js=true&qu=...
Смотрю код страницы гугла и не вижу даже намёка на эту страницу
Просто хотел бы под яндекс написать такой парсер, но там не могу найти место откуда парсить подсказки или же там нужно писать парсер с интерпритацией JS кода?
|
Ты не на код смотри, а на то, какие запросы делаются и ответы получаются. Например, через Fiddler.
|
|
|
16.04.2011, 19:37
|
#26
|
Курю прах Ленина...
Регистрация: 10.04.2011
Сообщений: 45
Бабло: $9500
|
Цитата:
Сообщение от matroskin
Ты не на код смотри, а на то, какие запросы делаются и ответы получаются. Например, через Fiddler.
|
От души!
|
|
|
16.04.2011, 20:12
|
#27
|
Senior Member
Регистрация: 08.07.2007
Сообщений: 177
Бабло: $34565
|
FF + "Tamper Data" = URL
PHP код:
http://suggest.yandex.ru/suggest-ya.cgi?v=3&callback=jsonp1302964618777&part=%D0%BA%D0%B5%D0%BA%D1%81&lr=213&yu=626880081302964777
Последний раз редактировалось incognito; 16.04.2011 в 20:13.
Причина: edit
|
|
|
16.04.2011, 20:17
|
#28
|
Курю прах Ленина...
Регистрация: 10.04.2011
Сообщений: 45
Бабло: $9500
|
Цитата:
Сообщение от incognito
FF + "Tamper Data" = URL
PHP код:
http://suggest.yandex.ru/suggest-ya.cgi?v=3&callback=jsonp1302964618777&part=%D0%BA%D0%B5%D0%BA%D1%81&lr=213&yu=626880081302964777
|
Мда, я уже нашел...
|
|
|
30.04.2011, 22:39
|
#29
|
Mr. Lucky Guy
Регистрация: 27.07.2010
Адрес: RU -> DE -> Asia
Сообщений: 706
Бабло: $175270
ТС -->
|
ТС
Скрипт замечательный, но.. банится по ip, устаёшь перезагружать рутер
Можно как-нибудь замедлить скорость перебора?
|
|
|
30.04.2011, 23:17
|
#30
|
Senior Member
Регистрация: 15.11.2008
Сообщений: 13,195
Бабло: $247847031
|
Цитата:
Сообщение от buratin0
Скрипт замечательный, но.. банится по ip, устаёшь перезагружать рутер
Можно как-нибудь замедлить скорость перебора?
|
PHP код:
<?php ######################################## ## собираем подсказки гугла ## ######################################## set_time_limit(300); $lang = 'de'; //язык запросов. $sleep_time = 5; // время ожидания между запросами, сек $file = file("keywords.txt");
$context = stream_context_create( array('http'=>array('header' => "User-Agent: Mozilla/4.0 (Windows 98; US) Opera 10.00\r\n" ."Accept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.7\r\n" ."Connection: Close\r\n\r\n")));
foreach ($file as $keyword) { $keyword = trim($keyword); $keyword = urlencode($keyword); $url2google = 'http://www.google.com/complete/search?hl='.$lang.'&js=true&qu='.$keyword; $key_adds = array('+1','+2','+3','+4','+5','+6','+7','+8','+9','+0', '+a','+b','+c','+d','+e','+f','+g','+h','+i','+j','+k', '+l','+m','+n','+o','+p','+q','+r','+s','+t','+u','+v', '+w','+x','+y','+z'); $sugg_data = file_get_contents($url2google, false, $context); foreach ($key_adds as $value){ $sugg_data .= file_get_contents($url2google.$value, false, $context); } preg_match_all('/\[\[.*?\]\]/',$sugg_data,$sugg_tmp); $sugg_tmp2 = implode(' ',$sugg_tmp[0]); preg_match_all('/\["(.*?)",/',$sugg_tmp2,$sugg_fin); $output = implode("\r\n",$sugg_fin[1])."\r\n"; //$output = iconv("ISO-8859-1","UTF-8",$output); file_put_contents("result.txt", $output, FILE_APPEND); sleep($sleep_time); } ?>
|
|
|
01.05.2011, 00:14
|
#31
|
Mr. Lucky Guy
Регистрация: 27.07.2010
Адрес: RU -> DE -> Asia
Сообщений: 706
Бабло: $175270
ТС -->
|
ТС
imgreen, респект! Полчаса уже парсит, пока бана нет
|
|
|
|