|
| Дата |
|
USD/RUB | 90.1887 | BTC/USD | 67985.0897 |
|
|
|
Скрипты, программы и технические решения Обсуждаем скрипты, программы и новые технологии. |
06.09.2012, 14:08
|
Start Post: Генерация читабельного русского текста?
|
Senior Member
Регистрация: 12.07.2009
Сообщений: 1,581
Бабло: $361075
|
Есть что-то адекватное на рынке под русский язык?
|
|
|
09.09.2012, 07:02
|
#12
|
автоматизирую интернеты
Регистрация: 05.07.2009
Адрес: chesser.ru
Сообщений: 3,362
Бабло: $470735
|
Цитата:
Сообщение от qazxcvbnm
chesser, как там твой нейросетевой ии на основе баз данных ?
|
как раз сейчас возвращаюсь к этому проекту. Но сначала хочу закончить курсы по ML, которые уже натолкнули на несколько идей по улучшению...
|
|
|
09.09.2012, 11:33
|
#13
|
$400
Регистрация: 17.05.2009
Сообщений: 14,031
Бабло: $1903940
|
я делал динамический так сказать дорген, который по любому кею генерит текст
там в зависимости от количества символов в кее, пробелов и пр. по формулам выбираются готовые стандартные предложения, которых полно и в них вставляется кей, потом предложения перемешиваются и очень читабельный текст выходит, например:
Цитата:
'на самом деле, разница между KEY и не совсем KEY несущественна',
'каждый, кто хоть раз сталкивался с темой KEY, точно знает о чем идет речь',
'никогда ранее тема KEY не была на столько насыщенной и разнообразной, как сейчас',
'не смотря ни на что, вопросы по поводу KEY беспокоят умы многих пользователей интеренета',
'в свое время данные про KEY было не так просто найти',
|
и хавается все такое ботами на ура ))
|
|
|
09.09.2012, 15:34
|
#14
|
Senior Member
Регистрация: 28.11.2009
Сообщений: 1,800
Бабло: $299365
|
Цитата:
Сообщение от chesser
про обработку текста
накидайте еще ресурсов про обработку текста, в том числе и про генерацию
|
хороший ресурс, спасибо за труд.
|
|
|
09.09.2012, 22:34
|
#15
|
Ниибаца крутой програмер
Регистрация: 04.08.2009
Сообщений: 904
Бабло: $177555
|
Цитата:
Сообщение от chesser
как раз сейчас возвращаюсь к этому проекту. Но сначала хочу закончить курсы по ML, которые уже натолкнули на несколько идей по улучшению...
|
а чего хотел добиться от проекта и чего удалось достичь ?
и в чём кстати оказалась сложность ?
|
|
|
10.09.2012, 07:07
|
#16
|
автоматизирую интернеты
Регистрация: 05.07.2009
Адрес: chesser.ru
Сообщений: 3,362
Бабло: $470735
|
Цитата:
Сообщение от qazxcvbnm
а чего хотел добиться от проекта и чего удалось достичь ?
|
когда в 2007 году делал доры, то целью был банальный генератор текста с уровнем качеством - "чтобы гугл кушал его и люди немного читали".
В последней версии генератора на вход поступали: язык, тематика, кеи, их плотность и требуемая длина текста, примерно такие основные параметры. Потом еще прибавилось параметров 10 и улучшилось качество за счет багофиксов и увеличения объемов статистики.
В те времена мне было важно, чтобы кей естественным образом входил в предложение и был его частью. По сути, текст формировался на основании предоставленных кеев с уклоном в указанную тематику. Но глобального смысла в этих текстах не было, он там появлялся случайным образом и сюжетная линия шла не далее 3-5 предложений.
Сейчас доры не делаю, поэтому старая версия генератора не интересна и не актуальна. В данный момент планирую создание осмысленных текстов на основе чужих мыслей. Генерировать свои мысли желания нет, т.к. это будет генерация по шаблонам, а шаблоны - это уже не автомат (т.к. тест тьюринга эвм еще не преодолело))). Полуавтоматы не интересны. Поэтому ищу пути "парсинга" чужих мыслей. В идеале нужно строить онтологическую модель чужого текста и на ее основе, пользуясь семантическими и синтаксическими правилами, генерировать новый текст. Но пока такая глубокая проработка вопроса имхо не окупит вложенных средств )) Поэтому хочу пойти по упрощенному варианту: на основе имеющейся статистической базы делать синонимайзы...ну или типа этого что-то, а учитывая объемы статистики (ИНС), результаты должны быть неплохими.
Цитата:
Сообщение от qazxcvbnm
и в чём кстати оказалась сложность ?
|
Из возникших сложностей - это проблемы с производительностью БД. Первое обучение генератора в 2007 году заняло более месяца круглосуточной работы сервера. Сейчас тот же самый объем работ выполняется за 20-30 минут вроде ))
а вообще, все мои мысли и генераторы примитивные. У нас на кафедре ребята(студенты, аспиранты) работают с вопросно-ответными протоколами, моделями рассуждений на их основе, извлекают опыт, моделирую базу знаний(и опыта) для задач проектирования автоматизированных систем. Для них построение онтологической модели входного текста - это одна из основных задач, которую решили уже 100500 раз с разных всевозможных ракурсов.
Их система решает примерно такую задачу: собрались в аське 5 сеошников и начали обсуждать проблему вывода белого сайта в топ при заданных условиях и параметрах. В конце обсуждения пришли к какому то выводу(проектному решению). Лог их общения скармливается специальному "парсеру", который извлекает опыт из этих рассуждений и сохраняет его в базе опыта. Предположим, у вас 100500 сеошников, которые рассуждают каждый день на эти темы (этот форум или серч). Скармливаем все их логи и учим базу опыта. После определенного этапа обучения база опыта уже выступает в роле экспертной системы и консультирует специалистов до(или вместо) их обсуждения, тем самым повышается эффективность принятия решений (проектных). Понятное дело, что проблема генерации текста в таких системах решена и на достаточно высоком уровне абстракции.
Кому интересны подобные темы - велкоме на Стэнфордские курсы по курсы по ML и AI, там и про NLP есть курсы, но где-то читал про них негативные отзывы
Последний раз редактировалось chesser; 10.09.2012 в 07:16.
|
|
|
10.09.2012, 09:31
|
#17
|
Ниибаца крутой програмер
Регистрация: 04.08.2009
Сообщений: 904
Бабло: $177555
|
Цитата:
Сообщение от chesser
Поэтому ищу пути "парсинга" чужих мыслей. В идеале нужно строить онтологическую модель чужого текста и на ее основе, пользуясь семантическими и синтаксическими правилами, генерировать новый текст.
|
так в чём проблема если ребята на кафедре, как ты сказал, уже решили этот вопрос
Цитата:
Сообщение от chesser
Сейчас тот же самый объем работ выполняется за 20-30 минут вроде ))
|
а если с этой новой производительностью генератор будет обучаться месяц, то принципиального улучшения не будет ?
Цитата:
Сообщение от chesser
У нас на кафедре ребята(студенты, аспиранты) работают с вопросно-ответными протоколами, моделями рассуждений на их основе, извлекают опыт, моделирую базу знаний(и опыта) для задач проектирования автоматизированных систем.
|
спали плз какие нибудь публикации по этим темам (которыми руководствовались студенты) или правильные ключевые слова (желательно англоязычные)
а ты на этой кафедре преподаёшь ?
Цитата:
Сообщение от chesser
Для них построение онтологической модели входного текста - это одна из основных задач, которую решили уже 100500 раз с разных всевозможных ракурсов.
|
а где можно почитать про эти ракурсы ?
|
|
|
10.09.2012, 10:23
|
#18
|
Senior Member
Регистрация: 25.06.2009
Сообщений: 803
Бабло: $141800
|
Цитата:
Сообщение от chesser
В последней версии генератора на вход поступали: язык, тематика, кеи, их плотность и требуемая длина текста, примерно такие основные параметры.
|
та версия что на скрине продается?
|
|
|
10.09.2012, 12:08
|
#19
|
$400
Регистрация: 17.05.2009
Сообщений: 14,031
Бабло: $1903940
|
Цитата:
Сообщение от chesser
когда в 2007 году делал доры, то целью был банальный генератор текста с уровнем качеством - "чтобы гугл кушал его и люди немного читали".
В последней версии генератора на вход поступали: язык, тематика, кеи, их плотность и требуемая длина текста, примерно такие основные параметры. Потом еще прибавилось параметров 10 и улучшилось качество за счет багофиксов и увеличения объемов статистики.
В те времена мне было важно, чтобы кей естественным образом входил в предложение и был его частью. По сути, текст формировался на основании предоставленных кеев с уклоном в указанную тематику. Но глобального смысла в этих текстах не было, он там появлялся случайным образом и сюжетная линия шла не далее 3-5 предложений.
Сейчас доры не делаю, поэтому старая версия генератора не интересна и не актуальна. В данный момент планирую создание осмысленных текстов на основе чужих мыслей. Генерировать свои мысли желания нет, т.к. это будет генерация по шаблонам, а шаблоны - это уже не автомат (т.к. тест тьюринга эвм еще не преодолело))). Полуавтоматы не интересны. Поэтому ищу пути "парсинга" чужих мыслей. В идеале нужно строить онтологическую модель чужого текста и на ее основе, пользуясь семантическими и синтаксическими правилами, генерировать новый текст. Но пока такая глубокая проработка вопроса имхо не окупит вложенных средств )) Поэтому хочу пойти по упрощенному варианту: на основе имеющейся статистической базы делать синонимайзы...ну или типа этого что-то, а учитывая объемы статистики (ИНС), результаты должны быть неплохими.
Из возникших сложностей - это проблемы с производительностью БД. Первое обучение генератора в 2007 году заняло более месяца круглосуточной работы сервера. Сейчас тот же самый объем работ выполняется за 20-30 минут вроде ))
а вообще, все мои мысли и генераторы примитивные. У нас на кафедре ребята(студенты, аспиранты) работают с вопросно-ответными протоколами, моделями рассуждений на их основе, извлекают опыт, моделирую базу знаний(и опыта) для задач проектирования автоматизированных систем. Для них построение онтологической модели входного текста - это одна из основных задач, которую решили уже 100500 раз с разных всевозможных ракурсов.
Их система решает примерно такую задачу: собрались в аське 5 сеошников и начали обсуждать проблему вывода белого сайта в топ при заданных условиях и параметрах. В конце обсуждения пришли к какому то выводу(проектному решению). Лог их общения скармливается специальному "парсеру", который извлекает опыт из этих рассуждений и сохраняет его в базе опыта. Предположим, у вас 100500 сеошников, которые рассуждают каждый день на эти темы (этот форум или серч). Скармливаем все их логи и учим базу опыта. После определенного этапа обучения база опыта уже выступает в роле экспертной системы и консультирует специалистов до(или вместо) их обсуждения, тем самым повышается эффективность принятия решений (проектных). Понятное дело, что проблема генерации текста в таких системах решена и на достаточно высоком уровне абстракции.
Кому интересны подобные темы - велкоме на Стэнфордские курсы по курсы по ML и AI, там и про NLP есть курсы, но где-то читал про них негативные отзывы
|
конечно классно рабтать на кафедре, заниматься наукой и не заморачиваться на зарабатывание денег, но враги народа распорядились по иному.
это уже работа над ии
по поводу шаблонов зря, поскольку даже люди видят сны по шаблонам.
в качестве примера: снился ли хоть одному средневековому воину айфон? нет! потому, что он его никогда не видел и не слышал про него, а современным людям он снится массово и ежедневно. нам не снится то, о чем мы никогда даже не слышали. по моей теории сон вообще и есть сам процесс составления логических цепочек в мозгу.
когда в голове куча новой инфы, мы хотим спать - переутомились, нужно из оперативной ячейки мозга новую инфу раскидать по полочкам, а это мы делаем только во сне. еще говорят, что нужно переспать с мыслью "утро вечера мудренее".
короче составляется т.н. ваша "база опыта"
есть у меня теория каким образом мозг принимает решения основываясь на этой базе опыта
2 основные категории + и - (как два полушария мозга)
новая инфа поступила, потом методом подстановок новой инфы к сохраненным кусочкам шаблонам (образам) составляет сценарии развития событий, которые и есть сны с сюжетами и результатом каждой такой цепочки является результат + или -, хорошо или плохо? т.е. предрасчет результата.
в бодрствовании же решение принимается по заготовленному во сне шаблону и решение мозг выдает быстро!
так во сне начинающий дизайнер рисует, программист программирует, водитель крутит баранку, т.е. записываются шаблоны, чтоб действовать не задумываясь.
если два ребенка увидели впервые кошку и на одного она зашипела и напугала, а второму замурчала, то первая запись в мозгу об кошках соответственно у первого будет - у второго +
и таким образом первый может через несколько лет ненавидеть котов, второй любить, но со временем при большем количестве опытов со знаком + он может полюбить котов.
поэтому генерить предложения без шаблонов наверно к осмысленному чему-то не приведет
если так разобраться, то мы и говорим по шаблонам
привет, давай, вау...
причем база кеев и шаблонов в голове у каждого своя
у элочки щукиной 29 кеев на все случаи жизни ))
|
|
|
10.09.2012, 12:57
|
#20
|
автоматизирую интернеты
Регистрация: 05.07.2009
Адрес: chesser.ru
Сообщений: 3,362
Бабло: $470735
|
Цитата:
Сообщение от qazxcvbnm
так в чём проблема если ребята на кафедре, как ты сказал, уже решили этот вопрос
|
ну...это не моя специфика, не моя предметная область.
Нужда была и есть, а научного интереса не было и нет в этом направлении.
Цитата:
Сообщение от qazxcvbnm
а если с этой новой производительностью генератор будет обучаться месяц, то принципиального улучшения не будет ?
|
лучше, но скорость роста качества со временем у меня падает нелинейно. Т.е. есть временная граница, дальше которой уже нет смысла ждать. Плюс многое зависит от условий обучения.
Цитата:
Сообщение от qazxcvbnm
спали плз какие нибудь публикации по этим темам (которыми руководствовались студенты) или правильные ключевые слова (желательно англоязычные)
а где можно почитать про эти ракурсы ?
|
Natural Language Processing например
в 4-ом посте этого треда давал ссылку, а дальше сам уже углубляешься в тематику. Вот еще неплохой ресурс: http://scholar.google.com/
обычно когда начинаешь искать среди научных трудов, через несколько недель приходишь к пониманию, что именно тебе нужно. А если не пройдешь этот эволюционный путь, то тебе будет только хуже. Надо исследовать предметную область самостоятельно )) все ученые обычно это делают в первых главах своих диссертационных работ.
курсы по машиному ленингу отличные, AI говорят похуже, но тоже норм, там же про nlp поищи. Если найдешь хорошие ресурсы - пиши сюда.
поищи что-нибудь про NetWIQA - это софтовый комплекс, которым у нас занимаются, сам софт тебе ничем тебе не поможет, а в публикациях по нему много полезного - там должны быть научные доклады, презентации и тд
Question-Answer Modeling, онтологии, модель знаний, онтологические модели представления знаний...
Цитата:
Сообщение от qazxcvbnm
а ты на этой кафедре преподаёшь ?
|
нет, учился 8 лет + тусовка, друзья, знакомые, преподы, сотрудники(бывшие, настоящие) - почти как семья, т.к. все окружение оттуда
Цитата:
Сообщение от xcrew
та версия что на скрине продается?
|
нет
|
|
|
|