Генерация читабельного русского текста? - Форум успешных вебмастеров - GoFuckBiz.com - Страница 2
 
 
Форум успешных вебмастеров - GoFuckBiz.com

  Форум успешных вебмастеров - GoFuckBiz.com > Бизнес-решения > Скрипты, программы и технические решения
Дата
USD/RUB90.1887
BTC/USD67985.0897
Скрипты, программы и технические решения Обсуждаем скрипты, программы и новые технологии.

Закрытая тема
Опции темы Опции просмотра
Старый 06.09.2012, 14:08
Start Post: Генерация читабельного русского текста? 
  #11
smsupport
Senior Member
 
Аватар для smsupport
 
Регистрация: 12.07.2009
Сообщений: 1,581
Бабло: $361075
По умолчанию

Есть что-то адекватное на рынке под русский язык?
__________________
Swissdoc heavy spec
smsupport вне форума  
Старый 09.09.2012, 07:02   #12
chesser
автоматизирую интернеты
 
Аватар для chesser
 
Регистрация: 05.07.2009
Адрес: chesser.ru
Сообщений: 3,362
Бабло: $470735
По умолчанию

Цитата:
Сообщение от qazxcvbnm Посмотреть сообщение
chesser, как там твой нейросетевой ии на основе баз данных ?
как раз сейчас возвращаюсь к этому проекту. Но сначала хочу закончить курсы по ML, которые уже натолкнули на несколько идей по улучшению...
__________________
USA и NL серверы и VPS | wiki | блог | Drupal | NginxТДС
Ave, Google, morituri te salutant! © chesser
chesser вне форума  
Старый 09.09.2012, 11:33   #13
digg
$400
 
Аватар для digg
 
Регистрация: 17.05.2009
Сообщений: 14,031
Бабло: $1903940
Отправить сообщение для digg с помощью ICQ
По умолчанию

я делал динамический так сказать дорген, который по любому кею генерит текст

там в зависимости от количества символов в кее, пробелов и пр. по формулам выбираются готовые стандартные предложения, которых полно и в них вставляется кей, потом предложения перемешиваются и очень читабельный текст выходит, например:

Цитата:
'на самом деле, разница между KEY и не совсем KEY несущественна',
'каждый, кто хоть раз сталкивался с темой KEY, точно знает о чем идет речь',
'никогда ранее тема KEY не была на столько насыщенной и разнообразной, как сейчас',
'не смотря ни на что, вопросы по поводу KEY беспокоят умы многих пользователей интеренета',
'в свое время данные про KEY было не так просто найти',
и хавается все такое ботами на ура ))
digg вне форума  
Старый 09.09.2012, 15:34   #14
rushter
Senior Member
 
Регистрация: 28.11.2009
Сообщений: 1,800
Бабло: $299365
По умолчанию

Цитата:
Сообщение от chesser Посмотреть сообщение
про обработку текста

накидайте еще ресурсов про обработку текста, в том числе и про генерацию
хороший ресурс, спасибо за труд.
rushter вне форума  
Старый 09.09.2012, 22:34   #15
qazxcvbnm
Ниибаца крутой програмер
 
Аватар для qazxcvbnm
 
Регистрация: 04.08.2009
Сообщений: 904
Бабло: $177555
По умолчанию

Цитата:
Сообщение от chesser Посмотреть сообщение
как раз сейчас возвращаюсь к этому проекту. Но сначала хочу закончить курсы по ML, которые уже натолкнули на несколько идей по улучшению...
а чего хотел добиться от проекта и чего удалось достичь ?
и в чём кстати оказалась сложность ?
qazxcvbnm вне форума  
Старый 10.09.2012, 07:07   #16
chesser
автоматизирую интернеты
 
Аватар для chesser
 
Регистрация: 05.07.2009
Адрес: chesser.ru
Сообщений: 3,362
Бабло: $470735
По умолчанию

Цитата:
Сообщение от qazxcvbnm Посмотреть сообщение
а чего хотел добиться от проекта и чего удалось достичь ?
когда в 2007 году делал доры, то целью был банальный генератор текста с уровнем качеством - "чтобы гугл кушал его и люди немного читали".
В последней версии генератора на вход поступали: язык, тематика, кеи, их плотность и требуемая длина текста, примерно такие основные параметры. Потом еще прибавилось параметров 10 и улучшилось качество за счет багофиксов и увеличения объемов статистики.
В те времена мне было важно, чтобы кей естественным образом входил в предложение и был его частью. По сути, текст формировался на основании предоставленных кеев с уклоном в указанную тематику. Но глобального смысла в этих текстах не было, он там появлялся случайным образом и сюжетная линия шла не далее 3-5 предложений.

Сейчас доры не делаю, поэтому старая версия генератора не интересна и не актуальна. В данный момент планирую создание осмысленных текстов на основе чужих мыслей. Генерировать свои мысли желания нет, т.к. это будет генерация по шаблонам, а шаблоны - это уже не автомат (т.к. тест тьюринга эвм еще не преодолело))). Полуавтоматы не интересны. Поэтому ищу пути "парсинга" чужих мыслей. В идеале нужно строить онтологическую модель чужого текста и на ее основе, пользуясь семантическими и синтаксическими правилами, генерировать новый текст. Но пока такая глубокая проработка вопроса имхо не окупит вложенных средств )) Поэтому хочу пойти по упрощенному варианту: на основе имеющейся статистической базы делать синонимайзы...ну или типа этого что-то, а учитывая объемы статистики (ИНС), результаты должны быть неплохими.

Цитата:
Сообщение от qazxcvbnm Посмотреть сообщение
и в чём кстати оказалась сложность ?
Из возникших сложностей - это проблемы с производительностью БД. Первое обучение генератора в 2007 году заняло более месяца круглосуточной работы сервера. Сейчас тот же самый объем работ выполняется за 20-30 минут вроде ))

а вообще, все мои мысли и генераторы примитивные. У нас на кафедре ребята(студенты, аспиранты) работают с вопросно-ответными протоколами, моделями рассуждений на их основе, извлекают опыт, моделирую базу знаний(и опыта) для задач проектирования автоматизированных систем. Для них построение онтологической модели входного текста - это одна из основных задач, которую решили уже 100500 раз с разных всевозможных ракурсов.

Их система решает примерно такую задачу: собрались в аське 5 сеошников и начали обсуждать проблему вывода белого сайта в топ при заданных условиях и параметрах. В конце обсуждения пришли к какому то выводу(проектному решению). Лог их общения скармливается специальному "парсеру", который извлекает опыт из этих рассуждений и сохраняет его в базе опыта. Предположим, у вас 100500 сеошников, которые рассуждают каждый день на эти темы (этот форум или серч). Скармливаем все их логи и учим базу опыта. После определенного этапа обучения база опыта уже выступает в роле экспертной системы и консультирует специалистов до(или вместо) их обсуждения, тем самым повышается эффективность принятия решений (проектных). Понятное дело, что проблема генерации текста в таких системах решена и на достаточно высоком уровне абстракции.

Кому интересны подобные темы - велкоме на Стэнфордские курсы по курсы по ML и AI, там и про NLP есть курсы, но где-то читал про них негативные отзывы
__________________
USA и NL серверы и VPS | wiki | блог | Drupal | NginxТДС
Ave, Google, morituri te salutant! © chesser

Последний раз редактировалось chesser; 10.09.2012 в 07:16.
chesser вне форума  
Старый 10.09.2012, 09:31   #17
qazxcvbnm
Ниибаца крутой програмер
 
Аватар для qazxcvbnm
 
Регистрация: 04.08.2009
Сообщений: 904
Бабло: $177555
По умолчанию

Цитата:
Сообщение от chesser Посмотреть сообщение
Поэтому ищу пути "парсинга" чужих мыслей. В идеале нужно строить онтологическую модель чужого текста и на ее основе, пользуясь семантическими и синтаксическими правилами, генерировать новый текст.
так в чём проблема если ребята на кафедре, как ты сказал, уже решили этот вопрос

Цитата:
Сообщение от chesser Посмотреть сообщение
Сейчас тот же самый объем работ выполняется за 20-30 минут вроде ))
а если с этой новой производительностью генератор будет обучаться месяц, то принципиального улучшения не будет ?

Цитата:
Сообщение от chesser Посмотреть сообщение
У нас на кафедре ребята(студенты, аспиранты) работают с вопросно-ответными протоколами, моделями рассуждений на их основе, извлекают опыт, моделирую базу знаний(и опыта) для задач проектирования автоматизированных систем.
спали плз какие нибудь публикации по этим темам (которыми руководствовались студенты) или правильные ключевые слова (желательно англоязычные)

Offtopic

Цитата:
Сообщение от chesser Посмотреть сообщение
Для них построение онтологической модели входного текста - это одна из основных задач, которую решили уже 100500 раз с разных всевозможных ракурсов.
а где можно почитать про эти ракурсы ?
qazxcvbnm вне форума  
Старый 10.09.2012, 10:23   #18
xcrew
Senior Member
 
Регистрация: 25.06.2009
Сообщений: 803
Бабло: $141800
По умолчанию

Цитата:
Сообщение от chesser Посмотреть сообщение
В последней версии генератора на вход поступали: язык, тематика, кеи, их плотность и требуемая длина текста, примерно такие основные параметры.
та версия что на скрине продается?
xcrew вне форума  
Старый 10.09.2012, 12:08   #19
digg
$400
 
Аватар для digg
 
Регистрация: 17.05.2009
Сообщений: 14,031
Бабло: $1903940
Отправить сообщение для digg с помощью ICQ
По умолчанию

More
digg вне форума  
Старый 10.09.2012, 12:57   #20
chesser
автоматизирую интернеты
 
Аватар для chesser
 
Регистрация: 05.07.2009
Адрес: chesser.ru
Сообщений: 3,362
Бабло: $470735
По умолчанию

Цитата:
Сообщение от qazxcvbnm Посмотреть сообщение
так в чём проблема если ребята на кафедре, как ты сказал, уже решили этот вопрос
ну...это не моя специфика, не моя предметная область.
Нужда была и есть, а научного интереса не было и нет в этом направлении.

Цитата:
Сообщение от qazxcvbnm Посмотреть сообщение
а если с этой новой производительностью генератор будет обучаться месяц, то принципиального улучшения не будет ?
лучше, но скорость роста качества со временем у меня падает нелинейно. Т.е. есть временная граница, дальше которой уже нет смысла ждать. Плюс многое зависит от условий обучения.

Цитата:
Сообщение от qazxcvbnm Посмотреть сообщение
спали плз какие нибудь публикации по этим темам (которыми руководствовались студенты) или правильные ключевые слова (желательно англоязычные)

а где можно почитать про эти ракурсы ?
Natural Language Processing например

в 4-ом посте этого треда давал ссылку, а дальше сам уже углубляешься в тематику. Вот еще неплохой ресурс: http://scholar.google.com/
обычно когда начинаешь искать среди научных трудов, через несколько недель приходишь к пониманию, что именно тебе нужно. А если не пройдешь этот эволюционный путь, то тебе будет только хуже. Надо исследовать предметную область самостоятельно )) все ученые обычно это делают в первых главах своих диссертационных работ.

курсы по машиному ленингу отличные, AI говорят похуже, но тоже норм, там же про nlp поищи. Если найдешь хорошие ресурсы - пиши сюда.

поищи что-нибудь про NetWIQA - это софтовый комплекс, которым у нас занимаются, сам софт тебе ничем тебе не поможет, а в публикациях по нему много полезного - там должны быть научные доклады, презентации и тд
Question-Answer Modeling, онтологии, модель знаний, онтологические модели представления знаний...

Цитата:
Сообщение от qazxcvbnm Посмотреть сообщение
а ты на этой кафедре преподаёшь ?
нет, учился 8 лет + тусовка, друзья, знакомые, преподы, сотрудники(бывшие, настоящие) - почти как семья, т.к. все окружение оттуда

Цитата:
Сообщение от xcrew Посмотреть сообщение
та версия что на скрине продается?
нет
__________________
USA и NL серверы и VPS | wiki | блог | Drupal | NginxТДС
Ave, Google, morituri te salutant! © chesser
chesser вне форума  
Старый 10.09.2012, 13:20   #21
qazxcvbnm
Ниибаца крутой програмер
 
Аватар для qazxcvbnm
 
Регистрация: 04.08.2009
Сообщений: 904
Бабло: $177555
По умолчанию

Цитата:
Сообщение от chesser Посмотреть сообщение
Natural Language Processing например
кэп

Цитата:
Сообщение от chesser Посмотреть сообщение
Если найдешь хорошие ресурсы - пиши сюда.
хорошая публикация для твоего генератора
Sentence Similarity Based on Semantic Nets and corpus statistics
qazxcvbnm вне форума  
Закрытая тема