ищется синонимомайзер ru и eng - Форум успешных вебмастеров

majordon · 17.11.2009, 22:42

ищу скрипт, прогу, готовое решение "умного" синонимомайзера по типу закона Зипфа и т.п. Т.е. не тупая замена синонимов и словосочетаний.
если что, можно в личку. буду рад общению и помощи

кто не в теме - для ознакомления
ЗЫ. кол-во языков может быть неограничено))

digg · 17.11.2009, 23:02

и мне
я тоже ищу ))

majordon · 17.11.2009, 23:11

если нет готового решения, может есть смысл объединиться в группу для заказа софта?
стоимость не мелкая, на группу раскидать и норм выйдет.
кому интересен софт, отпишитесь в теме плиз.
прогеры, если у вас есть предложения прошу так же отписаться

Gentle Giant · 17.11.2009, 23:44

Насколько я понял из прочитанного, тут кодинга как такового на копейки. Вся проблема в базе синонимов, в которой у каждого слова будет частота его употребления и список слов с которыми оно чаще всего употребляется. Вот как создать такую базу?

http://ru.wikipedia.org/wiki/%D0%A7%...B0%D1%80%D1%8C

Проблемы при создании частотных списков заключаются в:

* воспроизводимости (будут ли результаты идентичны на другом аналогичном корпусе),
* всплесках частоты отдельных слов (частота слова в одном тексте может повлиять на его позицию во частотном списке),
* сложности определения позиции менее частотных слов, что не дает возможности ранжировать их рационально; например, слово белиберда входит в 20000 наиболее частотных слов, в то время, как слово хрюкнуть находится за пределами списка первых 40 тысяч.

Все эти проблемы связаны с тем, что со статистической точки зрения язык представляет собой большое количество редких событий (Закон Ципфа), в результате чего небольшое количество слов встречается очень часто, а подавляющее большинство слов имеют очень невысокую частоту. Частота слова и (самого частотного слова русского языка) примерно в 10 раз выше частоты слова о, которое в свою очередь встречается в 100 раз чаще таких обыденных слов как путешествие, старость или мода.

majordon · 17.11.2009, 23:55

в этом то и проблема. тут работы на целый отдел

Gentle Giant · 18.11.2009, 00:03

Тут главное понять, осуществимо ли это вообще

Я думаю, у большинства частоупотребимых слов вообще не найдется синонимов с аналогичной или близкой частотой употребления. А если найдется, то скорее всего этот синоним будет употребляться с дургими словами.

И получается, что теоретически гугл составив такой словарь может отловить синонимизированный текст, а синонимизировать его так, чтобы гугл это не отловил невозможно (Закон Giant'a, скоро будет в википедии

).

majordon · 18.11.2009, 00:03

Цитата:

Сообщение от Gentle Giant

Все эти проблемы связаны с тем, что со статистической точки зрения язык представляет собой большое количество редких событий

мне вот интересно, может уже кто то сталкивался с потребностью подобного софта, как выходили из положения?

majordon · 18.11.2009, 00:12

Цитата:

Сообщение от Gentle Giant

И получается, что теоретически гугл составив такой словарь может отловить синонимизированный текст

не думаю что в ближайшие годы гугль или какой либо поисковик додумается отлавливать синонимизированый текст по закону зипфа

Gentle Giant · 18.11.2009, 00:15

А как же он сейчас отлавливает? С его баблом уже все сделано в лучшем виде

majordon · 18.11.2009, 00:18

да вроде щас отлавливает то, что тупо и по простому синонимизировано, вроде как