Форум успешных вебмастеров - GoFuckBiz.com

  Форум успешных вебмастеров - GoFuckBiz.com > Бизнес-решения > Скрипты, программы и технические решения
Дата
USD/RUB59.1340
BTC/USD0.0000
Скрипты, программы и технические решения Обсуждаем скрипты, программы и новые технологии.

Закрытая тема
Опции темы Опции просмотра
Старый 07.01.2015, 02:28   #1
Мыловар
Member
 
Аватар для Мыловар
 
Регистрация: 20.05.2014
Сообщений: 93
Бабло: $29835
По умолчанию Рубрикатор/определение тематики текста

Есть ли какие-то готовые решения на PHP для определения тематики ENG текста? Там даже не текст будет, а фраза long tail key. Желательно, чтобы не слишком тяжелое было. Возможно будет работать налету.
Мыловар вне форума  
Старый 07.01.2015, 02:58   #2
awm521212225
Senior Member
 
Аватар для awm521212225
 
Регистрация: 20.03.2012
Сообщений: 863
Бабло: $393585
По умолчанию

Цитата:
Есть ли какие-то готовые решения на PHP для определения тематики ENG текста?
Есть!
http://linkfeedator.ru/index.php?task=tematika
__________________
Сторонникам Морали и Нравственности нужно немедленно отрезать хуй, потому что хуй -- это безнравственно.
awm521212225 вне форума  
Старый 07.01.2015, 10:39   #3
PornRank
Юниор
 
Регистрация: 06.01.2015
Сообщений: 16
Бабло: $3770
По умолчанию

Цитата:
Сообщение от awm521212225 Посмотреть сообщение
Че-то как-то хреново работает на РУ-сайтах. А на ENG вообще не работает.
PornRank вне форума  
Старый 07.01.2015, 10:58   #4
Мыловар
Member
 
Аватар для Мыловар
 
Регистрация: 20.05.2014
Сообщений: 93
Бабло: $29835
ТС -->
автор темы ТС По умолчанию

Цитата:
Сообщение от PornRank Посмотреть сообщение
Че-то как-то хреново работает на РУ-сайтах. А на ENG вообще не работает.
У меня результаты примерно те же. Плюс надо бы чтобы этот модуль был автономный и без всяких API.
Мыловар вне форума  
Старый 07.01.2015, 17:49   #5
awm521212225
Senior Member
 
Аватар для awm521212225
 
Регистрация: 20.03.2012
Сообщений: 863
Бабло: $393585
По умолчанию

увы исскуственный интеллект не изобрели.
даже у поисковиком с их мощностями это не оч хорого получается.
нужно укорачивать тз - набивать кеи своей тематики кот чаще встречаются и юзать их для разкладки по полкам
__________________
Сторонникам Морали и Нравственности нужно немедленно отрезать хуй, потому что хуй -- это безнравственно.
awm521212225 вне форума  
Старый 07.01.2015, 19:37   #6
PornRank
Юниор
 
Регистрация: 06.01.2015
Сообщений: 16
Бабло: $3770
По умолчанию

Цитата:
Сообщение от awm521212225 Посмотреть сообщение
увы исскуственный интеллект не изобрели.
даже у поисковиком с их мощностями это не оч хорого получается.
нужно укорачивать тз - набивать кеи своей тематики кот чаще встречаются и юзать их для разкладки по полкам
Вариант 1: можно попытаться заюзать wordnet:
- Вытаскиваем из текста все существительные
- Ищем между существительными связи в wordnet
- Чем больше раз упоминается существительное в тексте и чем больше у него связей с другими существительными в тексте - тем больше вес данного существительного в данном значении.
- Берем топ N значений существительных, отсортированных по весу - это и будет неким подобием тематики текста.

Вариант 2: Нужен образец - каталог сайтов по тематикам. Тот же dmoz например:
- Единоразово парсим слова(или только существительные) и их частоту со N сайтов из каждого раздела. Получаем графы для каждого раздела.
- Парсим слова(или только существительные) и их частоту определяемого текста.
- Сравниваем полученый граф текста с графами-образцами разделов. Находим наибольшее соответствие - получаем тематику.
PornRank вне форума  
Старый 08.01.2015, 02:45   #8
chesser
автоматизирую интернеты
 
Аватар для chesser
 
Регистрация: 05.07.2009
Адрес: chesser.ru
Сообщений: 3,382
Бабло: $470735
По умолчанию

сорри за оффтоп, но у меня похожая с ТС задача:
ищу PHP-функцию, которая по ключевой фразе выдает уникальный читаемый текст со смыслом и тоже:
Цитата:
Сообщение от Мыловар
Желательно, чтобы не слишком тяжелое было. Возможно будет работать налету.
__________________
USA и NL серверы и VPS | wiki | блог | Drupal | NginxТДС
Ave, Google, morituri te salutant! © chesser
chesser вне форума  
Старый 12.01.2015, 13:08   #9
Мыловар
Member
 
Аватар для Мыловар
 
Регистрация: 20.05.2014
Сообщений: 93
Бабло: $29835
ТС -->
автор темы ТС По умолчанию

Цитата:
Сообщение от PornRank Посмотреть сообщение
Вариант 1: можно попытаться заюзать wordnet:
- Вытаскиваем из текста все существительные
- Ищем между существительными связи в wordnet
- Чем больше раз упоминается существительное в тексте и чем больше у него связей с другими существительными в тексте - тем больше вес данного существительного в данном значении.
- Берем топ N значений существительных, отсортированных по весу - это и будет неким подобием тематики текста.

Вариант 2: Нужен образец - каталог сайтов по тематикам. Тот же dmoz например:
- Единоразово парсим слова(или только существительные) и их частоту со N сайтов из каждого раздела. Получаем графы для каждого раздела.
- Парсим слова(или только существительные) и их частоту определяемого текста.
- Сравниваем полученый граф текста с графами-образцами разделов. Находим наибольшее соответствие - получаем тематику.
Эх, мил человек. Несилен я, к сожалению, в этих ваших математиках. Потому и хотелось бы взглянуть на готовое решение. Дальше бы уже сам допилил.
Мыловар вне форума  
Старый 12.01.2015, 13:27   #10
Дартаньян
Ебланнед
 
Регистрация: 22.01.2013
Сообщений: 110
Бабло: $20569
Отправить сообщение для Дартаньян с помощью ICQ Отправить сообщение для Дартаньян с помощью Skype™
По умолчанию

chesser, ну это только марков, имхо. где-то у меня был такой скрипт на php.
Дартаньян вне форума  
Закрытая тема



Опции темы
Опции просмотра