Гугл подсказки - язык получаемых кеев - Форум успешных вебмастеров - GoFuckBiz.com - Страница 2
 
 
Форум успешных вебмастеров - GoFuckBiz.com

  Форум успешных вебмастеров - GoFuckBiz.com > Бизнес-решения > Скрипты, программы и технические решения
Дата
USD/RUB88.6852
BTC/USD68271.8247
Скрипты, программы и технические решения Обсуждаем скрипты, программы и новые технологии.

Закрытая тема
Опции темы Опции просмотра
Старый 21.11.2012, 16:50
Start Post: Гугл подсказки - язык получаемых кеев 
  #11
krob
Senior Member
 
Аватар для krob
 
Регистрация: 29.04.2011
Сообщений: 379
Бабло: $111700
По умолчанию

Есть скрипт, парсит кеи из гугл подсказок с нужным языковым параметром, однако в результатах парсинга появляются кеи на турецком, норвежском и т.п. языках.

Грешу на:
1) скрипт работает через прокси, может поэтому гугл отдает кеи на языке местоположения прокси, хотя маловероятно...
2) большая глубина парсинга - 5

В чем может быть трабл и как этого избежать мож кто подскажет?
krob вне форума  
Старый 22.11.2012, 03:04   #12
Painkiller
Senior Member
 
Регистрация: 09.01.2010
Адрес: ☭
Сообщений: 203
Бабло: $39450
По умолчанию

гугл парсить - как-то сомнительно (любит левую хрень подмешивать) да и затратно.
Вот такой алго замутить хочу
Цитата:
предположу, что к визуальному определению наиболее близок метод «частоты двухбуквенных сочетаний», развитый до N-буквенных или (1,N)-буквенных.
Глядя на результаты экспериментов с генератором абракадабры, можно предположить, что для алфавитных систем должно хватить 5ти буквенных сочетаний.
«Перенасыщение» здесь наступает, когда вероятность буквы с Nым префиксом мало отличается от вероятности с (N+1)ым префиксом.
Такую таблицу можно построить пауком, просканировав достаточное количество страниц с достоверно известным языком. Именно так оно в голове и работает.
но бля этот алго не для которотких текстов, хотя может если 4х буквенные таблицы составить, может и нормально будет, надо пробовать
Painkiller вне форума