Цитата:
Сообщение от awm521212225
увы исскуственный интеллект не изобрели.
даже у поисковиком с их мощностями это не оч хорого получается.
нужно укорачивать тз - набивать кеи своей тематики кот чаще встречаются и юзать их для разкладки по полкам
|
Вариант 1: можно попытаться заюзать wordnet:
- Вытаскиваем из текста все существительные
- Ищем между существительными связи в wordnet
- Чем больше раз упоминается существительное в тексте и чем больше у него связей с другими существительными в тексте - тем больше вес данного существительного в данном значении.
- Берем топ N значений существительных, отсортированных по весу - это и будет неким подобием тематики текста.
Вариант 2: Нужен образец - каталог сайтов по тематикам. Тот же dmoz например:
- Единоразово парсим слова(или только существительные) и их частоту со N сайтов из каждого раздела. Получаем графы для каждого раздела.
- Парсим слова(или только существительные) и их частоту определяемого текста.
- Сравниваем полученый граф текста с графами-образцами разделов. Находим наибольшее соответствие - получаем тематику.