Сочные lsi-ключевики подобранные с помощью искусственного интеллекта - Форум успешных вебмастеров - GoFuckBiz.com

Grut · 14.10.2019, 20:39

Предлагаю подбор семантически релевантных (плюс семантически близких) слов и словосочетаний по вашим поисковым запросам с помощью обученной модели машинного обучения.

В отличии от TF-IDF (который по сути является статистическим алгоритмом частоты упоминания слов в списке документов), моя ML-модель использует последние достижения в сфере обработки естественного языка, эксплуатируя технологию векторной близости слов (word embedding).

Все слова и словосочетания подбираются на основании анализа страниц, которые занимают топ органической выдачи Гугла по интересующему вас поисковому запросу. Тут я писал детальнее как работает инструмент.

Доступные страны и языки для парсинга:

USA (english)
United Kingdom (english)
Germany (deutsch)
France (francais)
Italy (italiano)
Spain (espanol)
Portugal (portugues)
Netherlands (dutch)
Poland (polski)
Russian Federation (русский)

Глубина парсинга Гугла:

Top 10
Top 20
Top 30
Top 50

Hint: Чем больше датасет для обучения, тем точнее данные на выходе. Потому, я бы не рекомендовал использовать Top 10(или 20) для поисковых запросов, где в выдаче находятся страницы с малым количеством текста.

Файлы результатов:
На выходе, вы получите 3 csv-файла со следующей структурой:

Код:

ngram,relatedness,count,size,similarity,competitor

, где:
ngram - то самое семантически релевантное слово или словосочетание;
relatedness - коэффициент семантической релевантности н-граммы к основному поисковому запросу; чем значение меньше - тем лучше;
count - количество упоминаний текущей н-граммы в датасете;
size - размер н-граммы (1 - одно слово; 2 - двух словное выражение; 3 - трех словное выражение); в отдельном файле будут н-граммы только одной размерности;
similarity - коэффициент семантической близости н-граммы к основному поисковому запросу; чем значение меньше - тем лучше;
competitor - количество страниц из выдачи Гугла, в которых встречается текущая н-грамма.
Все csv-файлы отсортированы по колонке Relatedness (asc).

Пример:
Query: paleo meal plan
Google: USA - Top 30
Results: paleo-meal-plan_1gram.txt, paleo-meal-plan_2gram.txt, paleo-meal-plan_3gram.txt (заменил расширение файлов на txt из-за ограничений форума).

Стоимость услуги - $10
Форма оплаты - Webmoney WMZ.

Как заказать:
1. Отправляете 10 wmz на кошель Z379855054535
2. В примечании к платежу пишите: [поисковый запрос], [страна и глубина выдачи], [ник на форуме]. К примеру: aperol spritz, United Kingdom - Top30, Grut
3. Те же "поисковый запрос", "страна и глубина поиска" плюс "номер кошеля отправителя" дублируете в Контакты.

Контакты:
1. Приватные сообщение на GoFuckBiz
2. Telegram: @wordsminer

FAQ:
Q: В чем отличие семантической релевантности от семантической близости?
A: Для примера возьмем поисковый запрос "автомобиль". Семантически близкими для него будут слова "машина" и "автобус". А семантически релевантными будут слова "дорога" и "бензин".

Q: И что делать с полученными файлами?
A: Наполнять семантически релевантными и близкими словами ту страницу, которую вы продвигаете в топ Гугла по выбранному вами поисковому запросу. Вот как это делаю я:
- сортирую таблицу по колонке Relatedness(asc), выбираю наиболее релевантные слова и органически добавляю их в текст на своей странице;
- после сортирую таблицу по колонке Similarity(asc) и выбираю наиболее близки слова, которые также добавляю на свою страницу.
- и в конце, сортирую таблицу по колонке Competitor(desc) и проверяю какие слова/словосочетания я пропустил; их тоже добавляю в контент своей страницы.

Дисклеймер:
Запустив данный сервис на Гофаке, я преследую 2 цели:
1. Изучить спрос сеошников на ml-решения в области оптимизации контента.
2. Собрать денег на оплату услуг разработчика, чтоб запустить готовый сервис, где вы сможете подбирать semantically related/similar keywords без моего участия. Кстати, все кто закажут услугу более 10 раз, получат 1 месяц в будущем сервисе бесплатно.

sspy · 15.10.2019, 18:58

тоже нифига не понял, но звучит круто

Hector · 15.10.2019, 19:14

можно с помощью ахрефса собрать все ключи по которым статья (статьи) в топе и плясать уже от них

OfeatO · 16.10.2019, 00:44

Есть алгоритм определения вектора слова (наиболее вероятные по близости слова). Что-то типа такого

Друже грут использует софт созданный гуглом, обученный на гугла же топах.

Morgul · 16.10.2019, 03:32

OfeatO, ничего не понятно из этой картинки ))

Lis · 16.10.2019, 10:00

Цитата:

Сообщение от Morgul

OfeatO, ничего не понятно из этой картинки ))

Поехал в магаз за авокадо, нарежу салатик

iFirestarter · 16.10.2019, 11:29

Вот только, нельзя брать, наверное, ТОП >20 мусора будет многовато.

Grut · 16.10.2019, 14:20

Очень сложно объяснить основы искусственного интеллекта как для 6-ти летнего, но я попробую.

Одной из основных целей Гугла в органическом поиске - это представление результатов поисковой выдачи, которые наиболее полно отвечают на запрос пользователя.
Однако, чтоб достичь этой цели, Гуглу необходимо было понять:
- на какую тему написана та или иная страница;
- насколько детально и глубоко раскрывается тема данной страницы;
- и, в результате, отвечает ли текст данной страницы на запрос пользователя.

И если на третий вопрос можно получить ответ исследуя поведенческие факторы, то на первые два вопроса ответы дает Семантика. А семантика - это раздел лингвистики, который изучает смысловые значения слов.

До 2013 года, по моему мнению, задача решалась с помощью методик LSA (латентно-семантический анализ), одной из которых есть популярная среди сеошников формула TF-IDF.
Однако, у данной формулы есть свои недостатки:
1. Поскольку TF-IDF рассчитывает частоту упоминания отдельных слов в документе по отношению к частоте упоминания тех же слов в списке документов, то масштабирование этой методики, с постоянным ростом интернета, съедает все вычислительные ресурсы.
2. TF-IDF не различает позицию слова в тексте, омонимы и полисемы.

В 2013 году, Томаш Миколов, тимлид одного из подразделений Гугла, предположил, что некоторые слова в отдельном тексте более часто находятся рядом с другими словами, которые являются описательными первым. И этим свойством они составляют семантическую связь друг с другом.
Используя это умозаключение и свои познания в высшей математике, Томаш Миколов создал библиотеку алгоритмов Word2Vec. В концепции этих алгоритмов, мы можем предсказать семантическую релевантность каждого отдельного слова по его окружению (контексту) используя измеримую длину удаления контекстных слов от целевого. То есть, в предложении "наша маша громко плачет - уронила в речку мячик" слово "плачет" удалено от слова "маша" на 2, а слово "мячик" - на 6. И таким образом, мы получаем вектора слов в отдельно тексте. Эти вектора можно наложить на математические алгоритмы и предсказать тематическую релевантность одного термина по соотношению к другому. Вот это и есть, по моему пониманию, word embedding.

Создание библиотеки Word2Vec вдохнуло новую жизнь в компьютерную обработку естественного языка, и в интернетах начали появляться все новые и новые решения оценки релевантности слов и текстов. Почти все из них можно найти в TensorFlow (крупный фреймворк для решения задач ИИ и machine learning).

Теперь, для решения задач определения тематики текста и его экспертности, Гугл использует обученные на огромных массивах текстов (той же Википедии) модели машинного обучения.

Я же предлагаю вам списки семантически релевантных слов по вашим тематикам, которые получены из самого Гугла и просчитаны алгоритмами того же Гугла.

Разбавив этими словами контент, ваши страницы будут еще более релевантны поисковому запросу в глазах Гугла, чем ваши конкуренты. И этот факт, по моим пока незначительным тестам, позитивно скажется на ранжировании ваших сайтов.

Цитата:

Сообщение от iFirestarter

Вот только, нельзя брать, наверное, ТОП >20 мусора будет многовато.

Тут все зависит от тематики и конкуренции в каждой отдельной нише.