Как-то пробовал делать дорвеи года полтора назад (даже чё-то в поиске до сих пор висит
http://davisweber.chez.com/tag/car%2...20ratings.html - один из первых)
Схему уникализации подсмотрел DMI-доргена и немного доработал:
1. Чистил контент от тэгов.
2. Прогонял через
TreeTagger. Он разбивает на части речи, такие как прилагательное женского рода, или глагол такого-то времени или спряжения.
3. Затем заменял некоторые или все слова на аналогичную часть речи в соответствии с частотой упоминания в нормальном тексте, что бы не было нарушений правил Зипфа.
4. Другую часть слов синонимизировал, тоже собранным словариком. Словарик собирался из синонимов канонических частей речи (Ожёгов или другие для иностранных языков) и постепенно пополнялся на другие формы слова. Например так, изначально есть соответствие в каноническом виде: белый - светлый, затем если белая и светлая будут нде-нибудь встретятся TreeTagger нам сообщит их канонический вид, и словарик синонимов пополнится.
Скорость далеко не онлайн, всё работало с пополнением словарей и уникализацией примерно 300Кб в минуту. Проект уже закрыт, на вопросы если чё вспомню
- отвечу.