Генерация читабельного русского текста? - Форум успешных вебмастеров - GoFuckBiz.com - Страница 2

Регистрация

Сообщения за день

Пользователи

		Форум успешных вебмастеров - GoFuckBiz.com > Бизнес-решения > Скрипты, программы и технические решения
Генерация читабельного русского текста?


Дата
USD/RUB	90.1887
BTC/USD	67985.0897

Скрипты, программы и технические решения Обсуждаем скрипты, программы и новые технологии.

Закрытая тема

Страница 2 из 3

2

Опции темы

Опции просмотра

06.09.2012, 14:08	Start Post: Генерация читабельного русского текста? #11
smsupport Senior Member Регистрация: 12.07.2009 Сообщений: 1,581 Бабло: $361075	Есть что-то адекватное на рынке под русский язык? __________________ Swissdoc heavy spec

Старый

09.09.2012, 07:02

#12

chesser

автоматизирую интернеты

Аватар для chesser

Регистрация: 05.07.2009

Адрес: chesser.ru

Сообщений: 3,362
Бабло: $470735

По умолчанию

Цитата:

Сообщение от qazxcvbnm

Посмотреть сообщение

chesser, как там твой нейросетевой ии на основе баз данных ?

как раз сейчас возвращаюсь к этому проекту. Но сначала хочу закончить курсы по ML, которые уже натолкнули на несколько идей по улучшению...

__________________
USA и NL серверы и VPS | wiki | блог | Drupal | NginxТДС
Ave, Google, morituri te salutant! © chesser

chesser вне форума

Старый

09.09.2012, 11:33

#13

digg

$400

Аватар для digg

Регистрация: 17.05.2009

Сообщений: 14,031
Бабло: $1903940

Отправить сообщение для digg с помощью ICQ

По умолчанию

я делал динамический так сказать дорген, который по любому кею генерит текст

там в зависимости от количества символов в кее, пробелов и пр. по формулам выбираются готовые стандартные предложения, которых полно и в них вставляется кей, потом предложения перемешиваются и очень читабельный текст выходит, например:

Цитата:

'на самом деле, разница между KEY и не совсем KEY несущественна',
'каждый, кто хоть раз сталкивался с темой KEY, точно знает о чем идет речь',
'никогда ранее тема KEY не была на столько насыщенной и разнообразной, как сейчас',
'не смотря ни на что, вопросы по поводу KEY беспокоят умы многих пользователей интеренета',
'в свое время данные про KEY было не так просто найти',

и хавается все такое ботами на ура ))

__________________
ФАРМА ПП #1 - рекомендую! API, 1:7, > $200|DrBucks-фарма конверт 1:1 апрув100% Visa+MC
PharmAlliance СИЛА с НАМИ! Апрув 100%|@PILLTOP_Partners - тебе точно зайдет наш процент

digg вне форума

Старый

09.09.2012, 15:34

#14

rushter

Senior Member

Регистрация: 28.11.2009

Сообщений: 1,800
Бабло: $299365

По умолчанию

Цитата:

Сообщение от chesser

Посмотреть сообщение

про обработку текста

накидайте еще ресурсов про обработку текста, в том числе и про генерацию

хороший ресурс, спасибо за труд.

rushter вне форума

Старый

09.09.2012, 22:34

#15

qazxcvbnm

Ниибаца крутой програмер

Аватар для qazxcvbnm

Регистрация: 04.08.2009

Сообщений: 904
Бабло: $177555

По умолчанию

Цитата:

Сообщение от chesser

Посмотреть сообщение

как раз сейчас возвращаюсь к этому проекту. Но сначала хочу закончить курсы по ML, которые уже натолкнули на несколько идей по улучшению...

а чего хотел добиться от проекта и чего удалось достичь ?
и в чём кстати оказалась сложность ?

qazxcvbnm вне форума

Старый

10.09.2012, 07:07

#16

chesser

автоматизирую интернеты

Аватар для chesser

Регистрация: 05.07.2009

Адрес: chesser.ru

Сообщений: 3,362
Бабло: $470735

По умолчанию

Цитата:

Сообщение от qazxcvbnm

Посмотреть сообщение

а чего хотел добиться от проекта и чего удалось достичь ?

когда в 2007 году делал доры, то целью был банальный генератор текста с уровнем качеством - "чтобы гугл кушал его и люди немного читали".
В последней версии генератора на вход поступали: язык, тематика, кеи, их плотность и требуемая длина текста, примерно такие основные параметры. Потом еще прибавилось параметров 10 и улучшилось качество за счет багофиксов и увеличения объемов статистики.
В те времена мне было важно, чтобы кей естественным образом входил в предложение и был его частью. По сути, текст формировался на основании предоставленных кеев с уклоном в указанную тематику. Но глобального смысла в этих текстах не было, он там появлялся случайным образом и сюжетная линия шла не далее 3-5 предложений.

Сейчас доры не делаю, поэтому старая версия генератора не интересна и не актуальна. В данный момент планирую создание осмысленных текстов на основе чужих мыслей. Генерировать свои мысли желания нет, т.к. это будет генерация по шаблонам, а шаблоны - это уже не автомат (т.к. тест тьюринга эвм еще не преодолело))). Полуавтоматы не интересны. Поэтому ищу пути "парсинга" чужих мыслей. В идеале нужно строить онтологическую модель чужого текста и на ее основе, пользуясь семантическими и синтаксическими правилами, генерировать новый текст. Но пока такая глубокая проработка вопроса имхо не окупит вложенных средств )) Поэтому хочу пойти по упрощенному варианту: на основе имеющейся статистической базы делать синонимайзы...ну или типа этого что-то, а учитывая объемы статистики (ИНС), результаты должны быть неплохими.

Цитата:

Сообщение от qazxcvbnm

Посмотреть сообщение

и в чём кстати оказалась сложность ?

Из возникших сложностей - это проблемы с производительностью БД. Первое обучение генератора в 2007 году заняло более месяца круглосуточной работы сервера. Сейчас тот же самый объем работ выполняется за 20-30 минут вроде ))

а вообще, все мои мысли и генераторы примитивные. У нас на кафедре ребята(студенты, аспиранты) работают с вопросно-ответными протоколами, моделями рассуждений на их основе, извлекают опыт, моделирую базу знаний(и опыта) для задач проектирования автоматизированных систем. Для них построение онтологической модели входного текста - это одна из основных задач, которую решили уже 100500 раз с разных всевозможных ракурсов.

Их система решает примерно такую задачу: собрались в аське 5 сеошников и начали обсуждать проблему вывода белого сайта в топ при заданных условиях и параметрах. В конце обсуждения пришли к какому то выводу(проектному решению). Лог их общения скармливается специальному "парсеру", который извлекает опыт из этих рассуждений и сохраняет его в базе опыта. Предположим, у вас 100500 сеошников, которые рассуждают каждый день на эти темы (этот форум или серч). Скармливаем все их логи и учим базу опыта. После определенного этапа обучения база опыта уже выступает в роле экспертной системы и консультирует специалистов до(или вместо) их обсуждения, тем самым повышается эффективность принятия решений (проектных). Понятное дело, что проблема генерации текста в таких системах решена и на достаточно высоком уровне абстракции.

Кому интересны подобные темы - велкоме на Стэнфордские курсы по курсы по ML и AI, там и про NLP есть курсы, но где-то читал про них негативные отзывы

__________________
USA и NL серверы и VPS | wiki | блог | Drupal | NginxТДС
Ave, Google, morituri te salutant! © chesser

Последний раз редактировалось chesser; 10.09.2012 в 07:16.

chesser вне форума

Старый

10.09.2012, 09:31

#17

qazxcvbnm

Ниибаца крутой програмер

Аватар для qazxcvbnm

Регистрация: 04.08.2009

Сообщений: 904
Бабло: $177555

По умолчанию

Цитата:

Сообщение от chesser

Посмотреть сообщение

Поэтому ищу пути "парсинга" чужих мыслей. В идеале нужно строить онтологическую модель чужого текста и на ее основе, пользуясь семантическими и синтаксическими правилами, генерировать новый текст.

так в чём проблема если ребята на кафедре, как ты сказал, уже решили этот вопрос

Цитата:

Сообщение от chesser

Посмотреть сообщение

Сейчас тот же самый объем работ выполняется за 20-30 минут вроде ))

а если с этой новой производительностью генератор будет обучаться месяц, то принципиального улучшения не будет ?

Цитата:

Сообщение от chesser

Посмотреть сообщение

У нас на кафедре ребята(студенты, аспиранты) работают с вопросно-ответными протоколами, моделями рассуждений на их основе, извлекают опыт, моделирую базу знаний(и опыта) для задач проектирования автоматизированных систем.

спали плз какие нибудь публикации по этим темам (которыми руководствовались студенты) или правильные ключевые слова (желательно англоязычные)

Offtopic

Цитата:

Сообщение от chesser

Посмотреть сообщение

Для них построение онтологической модели входного текста - это одна из основных задач, которую решили уже 100500 раз с разных всевозможных ракурсов.

а где можно почитать про эти ракурсы ?

qazxcvbnm вне форума

Старый

10.09.2012, 10:23

#18

xcrew

Senior Member

Регистрация: 25.06.2009

Сообщений: 803
Бабло: $141800

По умолчанию

Цитата:

Сообщение от chesser

Посмотреть сообщение

В последней версии генератора на вход поступали: язык, тематика, кеи, их плотность и требуемая длина текста, примерно такие основные параметры.

та версия что на скрине продается?

xcrew вне форума

Старый

10.09.2012, 12:08

#19

digg

$400

Аватар для digg

Регистрация: 17.05.2009

Сообщений: 14,031
Бабло: $1903940

Отправить сообщение для digg с помощью ICQ

По умолчанию

More

Цитата:

Сообщение от chesser

Посмотреть сообщение

когда в 2007 году делал доры, то целью был банальный генератор текста с уровнем качеством - "чтобы гугл кушал его и люди немного читали".
В последней версии генератора на вход поступали: язык, тематика, кеи, их плотность и требуемая длина текста, примерно такие основные параметры. Потом еще прибавилось параметров 10 и улучшилось качество за счет багофиксов и увеличения объемов статистики.
В те времена мне было важно, чтобы кей естественным образом входил в предложение и был его частью. По сути, текст формировался на основании предоставленных кеев с уклоном в указанную тематику. Но глобального смысла в этих текстах не было, он там появлялся случайным образом и сюжетная линия шла не далее 3-5 предложений.

Сейчас доры не делаю, поэтому старая версия генератора не интересна и не актуальна. В данный момент планирую создание осмысленных текстов на основе чужих мыслей. Генерировать свои мысли желания нет, т.к. это будет генерация по шаблонам, а шаблоны - это уже не автомат (т.к. тест тьюринга эвм еще не преодолело))). Полуавтоматы не интересны. Поэтому ищу пути "парсинга" чужих мыслей. В идеале нужно строить онтологическую модель чужого текста и на ее основе, пользуясь семантическими и синтаксическими правилами, генерировать новый текст. Но пока такая глубокая проработка вопроса имхо не окупит вложенных средств )) Поэтому хочу пойти по упрощенному варианту: на основе имеющейся статистической базы делать синонимайзы...ну или типа этого что-то, а учитывая объемы статистики (ИНС), результаты должны быть неплохими.

Из возникших сложностей - это проблемы с производительностью БД. Первое обучение генератора в 2007 году заняло более месяца круглосуточной работы сервера. Сейчас тот же самый объем работ выполняется за 20-30 минут вроде ))

а вообще, все мои мысли и генераторы примитивные. У нас на кафедре ребята(студенты, аспиранты) работают с вопросно-ответными протоколами, моделями рассуждений на их основе, извлекают опыт, моделирую базу знаний(и опыта) для задач проектирования автоматизированных систем. Для них построение онтологической модели входного текста - это одна из основных задач, которую решили уже 100500 раз с разных всевозможных ракурсов.

Их система решает примерно такую задачу: собрались в аське 5 сеошников и начали обсуждать проблему вывода белого сайта в топ при заданных условиях и параметрах. В конце обсуждения пришли к какому то выводу(проектному решению). Лог их общения скармливается специальному "парсеру", который извлекает опыт из этих рассуждений и сохраняет его в базе опыта. Предположим, у вас 100500 сеошников, которые рассуждают каждый день на эти темы (этот форум или серч). Скармливаем все их логи и учим базу опыта. После определенного этапа обучения база опыта уже выступает в роле экспертной системы и консультирует специалистов до(или вместо) их обсуждения, тем самым повышается эффективность принятия решений (проектных). Понятное дело, что проблема генерации текста в таких системах решена и на достаточно высоком уровне абстракции.

Кому интересны подобные темы - велкоме на Стэнфордские курсы по курсы по ML и AI, там и про NLP есть курсы, но где-то читал про них негативные отзывы

конечно классно рабтать на кафедре, заниматься наукой и не заморачиваться на зарабатывание денег, но враги народа распорядились по иному.

это уже работа над ии

по поводу шаблонов зря, поскольку даже люди видят сны по шаблонам.
в качестве примера: снился ли хоть одному средневековому воину айфон? нет! потому, что он его никогда не видел и не слышал про него, а современным людям он снится массово и ежедневно. нам не снится то, о чем мы никогда даже не слышали. по моей теории сон вообще и есть сам процесс составления логических цепочек в мозгу.
когда в голове куча новой инфы, мы хотим спать - переутомились, нужно из оперативной ячейки мозга новую инфу раскидать по полочкам, а это мы делаем только во сне. еще говорят, что нужно переспать с мыслью "утро вечера мудренее".

короче составляется т.н. ваша "база опыта"
есть у меня теория каким образом мозг принимает решения основываясь на этой базе опыта

2 основные категории + и - (как два полушария мозга)

новая инфа поступила, потом методом подстановок новой инфы к сохраненным кусочкам шаблонам (образам) составляет сценарии развития событий, которые и есть сны с сюжетами и результатом каждой такой цепочки является результат + или -, хорошо или плохо? т.е. предрасчет результата.

в бодрствовании же решение принимается по заготовленному во сне шаблону и решение мозг выдает быстро!

так во сне начинающий дизайнер рисует, программист программирует, водитель крутит баранку, т.е. записываются шаблоны, чтоб действовать не задумываясь.

если два ребенка увидели впервые кошку и на одного она зашипела и напугала, а второму замурчала, то первая запись в мозгу об кошках соответственно у первого будет - у второго +
и таким образом первый может через несколько лет ненавидеть котов, второй любить, но со временем при большем количестве опытов со знаком + он может полюбить котов.

поэтому генерить предложения без шаблонов наверно к осмысленному чему-то не приведет
если так разобраться, то мы и говорим по шаблонам
привет, давай, вау...

причем база кеев и шаблонов в голове у каждого своя
у элочки щукиной 29 кеев на все случаи жизни ))

__________________
ФАРМА ПП #1 - рекомендую! API, 1:7, > $200|DrBucks-фарма конверт 1:1 апрув100% Visa+MC
PharmAlliance СИЛА с НАМИ! Апрув 100%|@PILLTOP_Partners - тебе точно зайдет наш процент

digg вне форума

Старый

10.09.2012, 12:57

#20

chesser

автоматизирую интернеты

Аватар для chesser

Регистрация: 05.07.2009

Адрес: chesser.ru

Сообщений: 3,362
Бабло: $470735

По умолчанию

Цитата:

Сообщение от qazxcvbnm

Посмотреть сообщение

так в чём проблема если ребята на кафедре, как ты сказал, уже решили этот вопрос

ну...это не моя специфика, не моя предметная область.
Нужда была и есть, а научного интереса не было и нет в этом направлении.

Цитата:

Сообщение от qazxcvbnm

Посмотреть сообщение

а если с этой новой производительностью генератор будет обучаться месяц, то принципиального улучшения не будет ?

лучше, но скорость роста качества со временем у меня падает нелинейно. Т.е. есть временная граница, дальше которой уже нет смысла ждать. Плюс многое зависит от условий обучения.

Цитата:

Сообщение от qazxcvbnm

Посмотреть сообщение

спали плз какие нибудь публикации по этим темам (которыми руководствовались студенты) или правильные ключевые слова (желательно англоязычные)

а где можно почитать про эти ракурсы ?

Natural Language Processing например

в 4-ом посте этого треда давал ссылку, а дальше сам уже углубляешься в тематику. Вот еще неплохой ресурс: http://scholar.google.com/
обычно когда начинаешь искать среди научных трудов, через несколько недель приходишь к пониманию, что именно тебе нужно. А если не пройдешь этот эволюционный путь, то тебе будет только хуже. Надо исследовать предметную область самостоятельно )) все ученые обычно это делают в первых главах своих диссертационных работ.

курсы по машиному ленингу отличные, AI говорят похуже, но тоже норм, там же про nlp поищи. Если найдешь хорошие ресурсы - пиши сюда.

поищи что-нибудь про NetWIQA - это софтовый комплекс, которым у нас занимаются, сам софт тебе ничем тебе не поможет, а в публикациях по нему много полезного - там должны быть научные доклады, презентации и тд
Question-Answer Modeling, онтологии, модель знаний, онтологические модели представления знаний...

Цитата:

Сообщение от qazxcvbnm

Посмотреть сообщение

а ты на этой кафедре преподаёшь ?

нет, учился 8 лет + тусовка, друзья, знакомые, преподы, сотрудники(бывшие, настоящие) - почти как семья, т.к. все окружение оттуда

Цитата:

Сообщение от xcrew

Посмотреть сообщение

та версия что на скрине продается?

нет

__________________
USA и NL серверы и VPS | wiki | блог | Drupal | NginxТДС
Ave, Google, morituri te salutant! © chesser

chesser вне форума

Старый

10.09.2012, 13:20

#21

qazxcvbnm

Ниибаца крутой програмер

Аватар для qazxcvbnm

Регистрация: 04.08.2009

Сообщений: 904
Бабло: $177555

По умолчанию

Цитата:

Сообщение от chesser

Посмотреть сообщение

Natural Language Processing например

кэп

Цитата:

Сообщение от chesser

Посмотреть сообщение

Если найдешь хорошие ресурсы - пиши сюда.

хорошая публикация для твоего генератора
Sentence Similarity Based on Semantic Nets and corpus statistics

qazxcvbnm вне форума

Закрытая тема

Страница 2 из 3

2