Обработать базу урлов - Форум успешных вебмастеров - GoFuckBiz.com
 
 
Форум успешных вебмастеров - GoFuckBiz.com

  Форум успешных вебмастеров - GoFuckBiz.com > Бизнес-решения > Скрипты, программы и технические решения
Дата
USD/RUB93.7196
BTC/USD64414.6636
Скрипты, программы и технические решения Обсуждаем скрипты, программы и новые технологии.

Закрытая тема
Опции темы Опции просмотра
Старый 06.02.2008, 03:17   #1
porky
Юниор
 
Регистрация: 25.01.2008
Сообщений: 3
Бабло: $520
По умолчанию Обработать базу урлов

Здравствуйте.
Есть база урлов. Нужно тулзу, чтоб показала наиболее встречающиеся словосочетания в урлах для создания запросов. Из бесплатных.
Кто что посоветует? Может у кого есть готовые решения - поделитесь плиз.

ЗЫ: Тут в голову пришла мысль попробовать заюзать для этого эксель, только не могу сообразить как такое в нём замутить.
porky вне форума  
Старый 06.02.2008, 03:33   #2
Dmitry HT
В помошь вебмастеру!
 
Аватар для Dmitry HT
 
Регистрация: 11.09.2007
Сообщений: 436
Бабло: $27673
По умолчанию

не совсем понял о чем ты...
попробуй написать расширенно здесь
Dmitry HT вне форума  
Старый 06.02.2008, 04:15   #3
porky
Юниор
 
Регистрация: 25.01.2008
Сообщений: 3
Бабло: $520
ТС -->
автор темы ТС По умолчанию

Уточню ещё и тут, что я имею в виду (в топике Dmitry HT тоже написал).

Собственно нужно обработать напарсеную базу урлов (база в файлах текстовых) и определить наиболее часто встречающиеся словосочетания в урлах для создания запросов для дальнейшего парсинга.

Суть такая же как и определение "плотности" кейвордов на странице сайта в белом сео в целях оптимизации. Так вот есть масса он-лайн тулзовин, в которую вбиваешь свой урл - а тебе выдаёт после анализа твоей страницы, что наиболее встречающиеся кеи у тебя на странице такие:
"девушки" (335 раз),
"голые девушки" (210 раз),
"крашеные голые девушки" (35 раз),
"крашеные голые девушки в кепке" (1 раз)

Сами понимаете кеи взяты наугад и для примера
Т.е. принцып такой же, но только для текстового файла с урлами на своём компе.
porky вне форума