Немного теории - Форум успешных вебмастеров - GoFuckBiz.com
 
 
Форум успешных вебмастеров - GoFuckBiz.com

  Форум успешных вебмастеров - GoFuckBiz.com > Разное > Треп | Флейм
Дата
USD/RUB93.4409
BTC/USD64038.6202
Треп | Флейм Обсуждение самых разных тем вне онлайн бизнеса.

Закрытая тема
Опции темы Опции просмотра
Старый 25.09.2008, 09:22   #1
Nou
Senior Member
 
Регистрация: 11.07.2007
Сообщений: 2,073
Бабло: $134959
По умолчанию Немного теории

Предположим, что у меня есть скрипт, умеющий генерить человеческий текст в промышленных масштабах на любую тему.
Внимание, вопрос. Через сколько миллионов символов наступит каллабз и контент окончательно обесценится в рунете/буржунете?
Nou вне форума  
Старый 25.09.2008, 09:33   #2
WebNinja
grablab.org
 
Аватар для WebNinja
 
Регистрация: 18.09.2007
Адрес: Thailand
Сообщений: 4,893
Бабло: $322264
Отправить сообщение для WebNinja с помощью ICQ Отправить сообщение для WebNinja с помощью Skype™
По умолчанию

тут надо подсчитать сколько времени могут потратить на чтение потенциальные серферы. Когда количество текста генерируемое скриптом станет больше чем серферы могут прочитать в сутки например. Тогда предложение будет превышать спрос и контент обесценится.
__________________
www.imscraping.ninja
grablab.org | blog
WebNinja вне форума  
Старый 25.09.2008, 10:16   #3
dady
Senior Medved
 
Аватар для dady
 
Регистрация: 15.06.2008
Сообщений: 4,146
Бабло: $22479945
По умолчанию

жесть.но такую машинку ещо долго не сделают.
__________________
Аппрув США >91% и Европа >90% Сливай фарму на Pharmcash - получай хрустящий кэш! / Спонсор! Докажи, что твоя партнерка №1 / 2019
dady вне форума  
Старый 25.09.2008, 13:21   #4
Nou
Senior Member
 
Регистрация: 11.07.2007
Сообщений: 2,073
Бабло: $134959
ТС -->
автор темы ТС По умолчанию

Цитата:
Сообщение от dady Посмотреть сообщение
жесть.но такую машинку ещо долго не сделают.
уверен?
Nou вне форума  
Старый 25.09.2008, 13:37   #5
WebNinja
grablab.org
 
Аватар для WebNinja
 
Регистрация: 18.09.2007
Адрес: Thailand
Сообщений: 4,893
Бабло: $322264
Отправить сообщение для WebNinja с помощью ICQ Отправить сообщение для WebNinja с помощью Skype™
По умолчанию

ноу за тобой уже выехали, будь дома ))))

думаю еще долго, писать как человек машина еще долго не сможет. Какие-то можнт полуописательные тексты - возможно, но реально передать всю экспрессию и точно выразить мысль машины научатся только когда сами будут мыслить.
__________________
www.imscraping.ninja
grablab.org | blog
WebNinja вне форума  
Старый 25.09.2008, 13:58   #6
MasterMushi
Снимаю, порчу
 
Аватар для MasterMushi
 
Регистрация: 20.08.2008
Адрес: B0 2E E6 70 E6 71 C3
Сообщений: 744
Бабло: $1285
По умолчанию

Дык, генераторов текста, который очень интересно читать уже парочку точно есть.

Вообще в есть 2 типа текстового контента: Читаемый и Филлерный.
Филлерный контент служит только для наполнения сайта или блога необходимым количеством слов, которые подходят для нужных НЧ запросов и просто для обьема ("Селебрити голые прыгали по пляжу а солдаты НАТО все видели").
Филлерные тексты - самый примитив на четверть страницы, остальное баннеры. Такое как правило редко кто читает. генерятся самыми примитиивными средствами.

Читаемый контент, это то контент около котрого будет показана реклама оплачиваемая гораздо дороже рекламы для филлер части сайта.

Если внимательно почитать некоторые новостные сайты, то создается впечатление, что новости или притянуты за уши или писались дилетантами. Скорее всего писались программой. По крайней мере "аналитические" новости, пережевывающие старые темы но создающие иллюзию жизни на сайте это процентов на 70 ботами сгенерены. Человек просто вытер лишнее и исправил ошибки.

Алгоритмы таких програм примерно такие: берем Дигг и ищем по нему с запросом из нескольких тематических ключей. Например: финансовый кризис банк крах. Получившийся результат сдираем и создаем базу материала. далее анализируется частотный словарь встречаемых собственных названий (тоесть названия банков, название городов, стран, имена людей) Самые часто встречающиеся названия режутся из исходного текста АБЗАЦАМИ. Тоесть из каждой статьи выдирается целый абзатц с нужным словом. После этого показывается человеку который "маркирует" данные для продолжения генерации, тоесть маркирует предложения которые подошли бы к новости.
Программа снова смотрит по всем статьям, ориентируясь на частотный словарь уже из слов, помеченных в предложениях. Находит еще куски текста и на вывод подаем мешанину из тематической подборки. Редактору остается просто выставить абзатцы в нужном порядке для завершения логической картины.

Самое сложное, это построить базу логических связей. Программу нужно обучать. Но есть метод простой - таблица последовательностей. или статистическая база какое слово обычно идет перед или после определенной фразы, словосочетания или целого предложения. также выводится "дистанция" тоесть через какое количество фраз. одно слово чаще всего идет за предыдущим
К примеру Пожалуйста идет как правило через одно предложение после слова Спасибо
- Спасибо, вы очень помогли.
- Пожалуйста, я был рад вам помочь

Чем круче база логики, тем правдоподобнее тексты на выходе. растаманские сказки, сгенеренные машиной не отличишь от реально созданных растаманами )))) не забываем и о технологии mpeg. Текстовый контент ничуть не хуже попадает под формулы, применяемые для восстановления картинок между ключевыми кадрами. Есть ключевые слова или абзатцы, между ними по набору векторов строится контент. Пока что филлерный. далее думаю все изменится.

Так что будем скоро поголовно читать Robot Уелса и других которые сюжет строят интересно.
__________________
(с) Секрет успеха в жизни связан с честностью и порядочностью: Если у вас нет этих качеств - успех гарантирован...
MasterMushi вне форума  
Старый 25.09.2008, 14:32   #7
WebNinja
grablab.org
 
Аватар для WebNinja
 
Регистрация: 18.09.2007
Адрес: Thailand
Сообщений: 4,893
Бабло: $322264
Отправить сообщение для WebNinja с помощью ICQ Отправить сообщение для WebNinja с помощью Skype™
По умолчанию

MasterMushi читаю твои посты охуеваю - умный парень, респект.

я понял, конечно текст это не видео, но все же да mpeg может подойти. типа стандартные фразы связки, все равно бедут чувствоватся "роботизация" контента пойдет кое-где, но чтоб реально генерировать осмысленный текст интересный людям, этого еще нет, и надеюсь в ближайшие пару лет не появится. Т.е. спрос на качественный авторский контент вряд ли ослабеет.
__________________
www.imscraping.ninja
grablab.org | blog
WebNinja вне форума  
Старый 25.09.2008, 14:39   #8
reality
Senior Member
 
Регистрация: 07.04.2007
Сообщений: 171
Бабло: $8600
Отправить сообщение для reality с помощью ICQ
По умолчанию

MasterMushi а можеш накидать ссылки на конкретные алгоритмы, публикации по этой теме. Или ты просто нагенерил этот пост как галимый контент

Лично я довольно много интересного видел в научных публикациях гугла, яхи по схожим тематикам. Но все на английском, со сложной математикой... все руки не дойдут серьезно этим заняться
reality вне форума  
Старый 25.09.2008, 14:47   #9
WebNinja
grablab.org
 
Аватар для WebNinja
 
Регистрация: 18.09.2007
Адрес: Thailand
Сообщений: 4,893
Бабло: $322264
Отправить сообщение для WebNinja с помощью ICQ Отправить сообщение для WebNinja с помощью Skype™
По умолчанию

можешь заделится линками (ПМ?) на статьи на инглише ?
я видел алгоритмы основанные на н-грамах, но он не для людей явно )
__________________
www.imscraping.ninja
grablab.org | blog
WebNinja вне форума  
Старый 25.09.2008, 14:53   #10
MasterMushi
Снимаю, порчу
 
Аватар для MasterMushi
 
Регистрация: 20.08.2008
Адрес: B0 2E E6 70 E6 71 C3
Сообщений: 744
Бабло: $1285
По умолчанию

Хмм. Гугль же все знает
Генератор текста

Ну и готовые алгоритмы есть в примерах на википедии

ЗЫ а сам конкретный алгоритм построения БД это коммерческая тайна. базовая теория тут
__________________
(с) Секрет успеха в жизни связан с честностью и порядочностью: Если у вас нет этих качеств - успех гарантирован...
MasterMushi вне форума