Уточню ещё и тут, что я имею в виду (в топике Dmitry HT тоже написал).
Собственно нужно обработать напарсеную базу урлов (база в файлах текстовых) и определить наиболее часто встречающиеся словосочетания в урлах для создания запросов для дальнейшего парсинга.
Суть такая же как и определение "плотности" кейвордов на странице сайта в белом сео в целях оптимизации. Так вот есть масса он-лайн тулзовин, в которую вбиваешь свой урл - а тебе выдаёт после анализа твоей страницы, что наиболее встречающиеся кеи у тебя на странице такие:
"девушки" (335 раз),
"голые девушки" (210 раз),
"крашеные голые девушки" (35 раз),
"крашеные голые девушки в кепке" (1 раз)
Сами понимаете кеи взяты наугад и для примера
Т.е. принцып такой же, но только для текстового файла с урлами на своём компе.