Форум успешных вебмастеров - GoFuckBiz.com

  Форум успешных вебмастеров - GoFuckBiz.com > Разное > Реклама и анонсы партнерок и сервисов
Дата
USD/RUB58.6550
BTC/USD0.0000
Реклама и анонсы партнерок и сервисов Анонсы партнерских программ и реклама полезных сервисов.

Закрытая тема
Опции темы Опции просмотра
Старый 17.11.2009, 22:42   #1
majordon
Senior Member
 
Аватар для majordon
 
Регистрация: 11.10.2008
Сообщений: 5,909
Бабло: $829038
По умолчанию ищется синонимомайзер ru и eng

ищу скрипт, прогу, готовое решение "умного" синонимомайзера по типу закона Зипфа и т.п. Т.е. не тупая замена синонимов и словосочетаний.
если что, можно в личку. буду рад общению и помощи
кто не в теме - для ознакомления
ЗЫ. кол-во языков может быть неограничено))
majordon вне форума  
Старый 17.11.2009, 23:11   #3
majordon
Senior Member
 
Аватар для majordon
 
Регистрация: 11.10.2008
Сообщений: 5,909
Бабло: $829038
ТС -->
автор темы ТС По умолчанию

если нет готового решения, может есть смысл объединиться в группу для заказа софта?
стоимость не мелкая, на группу раскидать и норм выйдет.
кому интересен софт, отпишитесь в теме плиз.
прогеры, если у вас есть предложения прошу так же отписаться
majordon вне форума  
Старый 17.11.2009, 23:44   #4
Gentle Giant
Senior Member
 
Аватар для Gentle Giant
 
Регистрация: 02.07.2007
Сообщений: 386
Бабло: $45320
По умолчанию

Насколько я понял из прочитанного, тут кодинга как такового на копейки. Вся проблема в базе синонимов, в которой у каждого слова будет частота его употребления и список слов с которыми оно чаще всего употребляется. Вот как создать такую базу?

http://ru.wikipedia.org/wiki/%D0%A7%...B0%D1%80%D1%8C

Проблемы при создании частотных списков заключаются в:

* воспроизводимости (будут ли результаты идентичны на другом аналогичном корпусе),
* всплесках частоты отдельных слов (частота слова в одном тексте может повлиять на его позицию во частотном списке),
* сложности определения позиции менее частотных слов, что не дает возможности ранжировать их рационально; например, слово белиберда входит в 20000 наиболее частотных слов, в то время, как слово хрюкнуть находится за пределами списка первых 40 тысяч.

Все эти проблемы связаны с тем, что со статистической точки зрения язык представляет собой большое количество редких событий (Закон Ципфа), в результате чего небольшое количество слов встречается очень часто, а подавляющее большинство слов имеют очень невысокую частоту. Частота слова и (самого частотного слова русского языка) примерно в 10 раз выше частоты слова о, которое в свою очередь встречается в 100 раз чаще таких обыденных слов как путешествие, старость или мода.
Gentle Giant вне форума  
Старый 17.11.2009, 23:55   #5
majordon
Senior Member
 
Аватар для majordon
 
Регистрация: 11.10.2008
Сообщений: 5,909
Бабло: $829038
ТС -->
автор темы ТС По умолчанию

в этом то и проблема. тут работы на целый отдел
majordon вне форума  
Старый 18.11.2009, 00:03   #6
Gentle Giant
Senior Member
 
Аватар для Gentle Giant
 
Регистрация: 02.07.2007
Сообщений: 386
Бабло: $45320
По умолчанию

Тут главное понять, осуществимо ли это вообще Я думаю, у большинства частоупотребимых слов вообще не найдется синонимов с аналогичной или близкой частотой употребления. А если найдется, то скорее всего этот синоним будет употребляться с дургими словами.

И получается, что теоретически гугл составив такой словарь может отловить синонимизированный текст, а синонимизировать его так, чтобы гугл это не отловил невозможно (Закон Giant'a, скоро будет в википедии ).
Gentle Giant вне форума  
Старый 18.11.2009, 00:03   #7
majordon
Senior Member
 
Аватар для majordon
 
Регистрация: 11.10.2008
Сообщений: 5,909
Бабло: $829038
ТС -->
автор темы ТС По умолчанию

Цитата:
Сообщение от Gentle Giant
Все эти проблемы связаны с тем, что со статистической точки зрения язык представляет собой большое количество редких событий
мне вот интересно, может уже кто то сталкивался с потребностью подобного софта, как выходили из положения?
majordon вне форума  
Старый 18.11.2009, 00:12   #8
majordon
Senior Member
 
Аватар для majordon
 
Регистрация: 11.10.2008
Сообщений: 5,909
Бабло: $829038
ТС -->
автор темы ТС По умолчанию

Цитата:
Сообщение от Gentle Giant
И получается, что теоретически гугл составив такой словарь может отловить синонимизированный текст
не думаю что в ближайшие годы гугль или какой либо поисковик додумается отлавливать синонимизированый текст по закону зипфа
majordon вне форума  
Старый 18.11.2009, 00:15   #9
Gentle Giant
Senior Member
 
Аватар для Gentle Giant
 
Регистрация: 02.07.2007
Сообщений: 386
Бабло: $45320
По умолчанию

А как же он сейчас отлавливает? С его баблом уже все сделано в лучшем виде
Gentle Giant вне форума  
Старый 18.11.2009, 00:18   #10
majordon
Senior Member
 
Аватар для majordon
 
Регистрация: 11.10.2008
Сообщений: 5,909
Бабло: $829038
ТС -->
автор темы ТС По умолчанию

да вроде щас отлавливает то, что тупо и по простому синонимизировано, вроде как
majordon вне форума  
Закрытая тема



Опции темы
Опции просмотра