Определение слов - Форум успешных вебмастеров - GoFuckBiz.com - Страница 2
 
 
Форум успешных вебмастеров - GoFuckBiz.com

  Форум успешных вебмастеров - GoFuckBiz.com > Общий раздел > Мысли, идеи и полезные статьи
Дата
USD/RUB89.7026
BTC/USD67693.3273
Мысли, идеи и полезные статьи Интересные статьи, а также креативные идеи в сфере онлайн бизнеса.

Закрытая тема
Опции темы Опции просмотра
Старый 04.07.2012, 01:20
Start Post: Определение слов 
  #11
beabetters
Virgillio
 
Аватар для beabetters
 
Регистрация: 27.04.2009
Сообщений: 238
Бабло: $56910
По умолчанию

Может кто знает как решается такая задача?
Сейчас для одного проекта встала такая задача, необходимо определить "одинаковость" слов. Например, две фразы:
- Иванову выслали поздравление
- Иванова поздравили письмом
В обоих фразах нет ни одного одинакового слова (по точному вхождению), но по сути есть одно и то же слово "Иванов". Вот как это программным путем определить? Имеется ввиду алгоритм. Такое часто можно встретить в различных сервисах, тот же гугл или даже вконтакт, к примеру задаю в поиске слово "стартап", но поиск выдает результаты в которых встречаются слова "стартап", "стартапу", "стартапа", "стартапы" и пр. Врядли такие сервисы имеют базы всех существующих "одинаковых" слов о_0. Скорее всего это как-то программно решается? Или я чего то туплю...
beabetters вне форума  
Старый 05.07.2012, 23:14   #12
beabetters
Virgillio
 
Аватар для beabetters
 
Регистрация: 27.04.2009
Сообщений: 238
Бабло: $56910
ТС -->
автор темы ТС По умолчанию

Цитата:
Сообщение от Venya Tolinov Посмотреть сообщение
Попробую разбавить безнадёжный оптимизм ложкой дёгтя. Задача соответствия фразы из двух слов другой фразе из двух слов в общем виде неразрешима. Тупая синонимизация в произвольных частях речи ресурсов жрёт нормально, причём для такой работы базу надо собирать самому. Когдя я этим заморачивался у меня для русского языка была база в 16 млн. слов. Кое что я уже писал http://gofuckbiz.com/showthread.php?t=30527
Для двух слов понадобится база... умножать умеете?
мне не для синонимизации, мне вообще не для дорвеев)
beabetters вне форума  
Старый 06.07.2012, 00:17   #13
Venya Tolinov
Senior Member
 
Аватар для Venya Tolinov
 
Регистрация: 24.11.2010
Сообщений: 229
Бабло: $52860
Отправить сообщение для Venya Tolinov с помощью Skype™
По умолчанию

Да хоть для ловли крабов) Задача сложная настолько что ей нет места для практического применения.
__________________
Amazon Graffiti - монетизация страниц в Facebook
Venya Tolinov вне форума  
Старый 06.07.2012, 04:54   #14
beabetters
Virgillio
 
Аватар для beabetters
 
Регистрация: 27.04.2009
Сообщений: 238
Бабло: $56910
ТС -->
автор темы ТС По умолчанию

Цитата:
Сообщение от Venya Tolinov Посмотреть сообщение
Да хоть для ловли крабов) Задача сложная настолько что ей нет места для практического применения.
мне функция эта нужна для тех же целей, для каких она у гугла используется, уже есть готовый алгоритм все реализуемо.
beabetters вне форума  
Старый 06.07.2012, 09:52   #15
Summer In Paris
Senior Member
 
Аватар для Summer In Paris
 
Регистрация: 12.05.2007
Сообщений: 218
Бабло: $58175
По умолчанию

beabetters, тебе уже всё правильно посоветовали, скажу только про свой практический опыт - мы эту задачу для больших данных успешно решали через Sphinx. Может тебе тоже подойдёт.
Summer In Paris вне форума  
Старый 07.07.2012, 00:05   #16
chesser
автоматизирую интернеты
 
Аватар для chesser
 
Регистрация: 05.07.2009
Адрес: chesser.ru
Сообщений: 3,362
Бабло: $470735
По умолчанию

Цитата:
Сообщение от Summer In Paris Посмотреть сообщение
beabetters, тебе уже всё правильно посоветовали, скажу только про свой практический опыт - мы эту задачу для больших данных успешно решали через Sphinx. Может тебе тоже подойдёт.
в сфинксе как раз стемминг.
надо выбирать из двух алгоритмов: основанных на морфологии(тот же стемминг) и алго схожими с расстоянием Левинштейна.
Первое точнее, но сложнее в реализации и дороже по ресурсам, второе быстрее, но менее точное и как-то так:
Цитата:
С точки зрения приложений определение расстояния между словами или текстовыми полями по Левенштейну обладает следующими недостатками:

При перестановке местами слов или частей слов получаются сравнительно большие расстояния;
Расстояния между совершенно разными короткими словами оказываются небольшими, в то время как расстояния между очень похожими длинными словами оказываются значительными.
wikipedia
__________________
USA и NL серверы и VPS | wiki | блог | Drupal | NginxТДС
Ave, Google, morituri te salutant! © chesser
chesser вне форума  
Старый 17.08.2012, 08:50   #17
rombot
Senior Member
 
Аватар для rombot
 
Регистрация: 16.04.2009
Сообщений: 2,924
Бабло: $628565
По умолчанию

Столкнулся со схожей проблемой в названии команд и игроков.
Но названия могут очень сильно разнится, к примеру:
Aab - FC Midtjylland
Aalborg - Midtjylland


Если вторую команду еще можно обработать скриптом, то первую как? Походу такие отличия нужно будет только вручную править?

Последний раз редактировалось rombot; 17.08.2012 в 08:58.
rombot вне форума  
Старый 17.08.2012, 15:12   #18
chesser
автоматизирую интернеты
 
Аватар для chesser
 
Регистрация: 05.07.2009
Адрес: chesser.ru
Сообщений: 3,362
Бабло: $470735
По умолчанию

rombot, расстояние по Левенштейну пробовал считать?
__________________
USA и NL серверы и VPS | wiki | блог | Drupal | NginxТДС
Ave, Google, morituri te salutant! © chesser
chesser вне форума  
Старый 17.08.2012, 20:05   #19
rombot
Senior Member
 
Аватар для rombot
 
Регистрация: 16.04.2009
Сообщений: 2,924
Бабло: $628565
По умолчанию

Цитата:
Сообщение от chesser Посмотреть сообщение
rombot, расстояние по Левенштейну пробовал считать?
Я попробую, отпишусь какие результаты выйдут в этой конкретной задаче.
rombot вне форума