Google хочет измерять важность сайтов по фактам, а не по ссылкам. - Форум успешных вебмастеров - GoFuckBiz.com

maxidrom11 · 02.03.2015, 14:30

Исследовательская команда Google опубликовала на arXiv.org статью "Knowledge-Based Trust: Estimating the Trustworthiness of Web Sources", в которой рассматривается вопрос вычисления для определённой веб-страницы специальной репутационной характеристики Knowledge-Based Trust (KBT). Планируется, что KBT должна стать основой для будущего алгоритма поисковой машины Google, выстраивающей сайты в соответствии с их «надёжностью».

Известно, что алгоритм ссылочного ранжирования PageRank определяет важность веб-страницы как число ссылок, ведущих на неё. Реальный поиск Google учитывает ещё множество факторов, таких как наличие определённых слов на страницах сайтов, актуальность информации, местоположение пользователя, адаптивность к мобильным устройствам — всего таких факторов около 200. Считается, что обновление поискового алгоритма в сентябре 2013 года, известное как «Колибри» (Hummingbird), научило Google реагировать не только на ключевые слова, а и на контексты и образы, их сопровождающие. Прошлогоднее обновление алгоритма «Голубь» (Pigeon) привело к более релевантным результатам поиска с географически зависимой информацией.

Новый подход к ранжированию сайтов рассматривает важность веб-страницы как числовую характеристику достоверности фактов. Как и раньше, поисковый робот сканирует сайт, извлекает из него «утверждения», достоверность которых сравнивается с базой знаний Knowledge Vault. Эта база знаний, принадлежащая Google, сейчас содержит примерно 1.6 миллиарда фактов, автоматически собранных из интернета. Её главное отличие от более известной Knowledge Graph заключается в её «всеядности». Если Knowledge Graph использует в качестве источника информации заведомо надёжные Wikipedia и Freebase, то Vault «не брезгует» ничем и собирает информацию с абсолютно всех сайтов, из которых можно извлечь хотя бы что-то. На основе числа совпадений «извлечённых» фактов с хранящимися в Google Vault, и определяется достоверность ресурса.

На тестовых данных вероятностная модель, предложенная авторами работы, показала удовлетворительные результаты. Затем в автоматическом режиме были вычислены показатели KBT для 119 миллионов реальных веб-страниц. Дальнейшая проверка в ручном режиме показала, что и реальные данные вполне поддаются новой системе ранжирования. Как скоро результаты исследования затронут существующий поисковый алгоритм Google пока что неизвестно.

Grut · 04.03.2015, 14:48

Цитата:

Сообщение от kibnet

ну так это, берем факты из их баз, спамим фактами на своих страницах, вот, теперь мы трастовые, важные и самое главное НАДЕЖНЫЕ )

Проблема в том, что никто тебе не откроет доступ в базу знаний Knowledge Vault.

Цитата:

Сообщение от Dadee

то есть раньше парсили кейворды, теперь будем парсить факты по таблеткам и постить в столбик?
халява какая-то
P.S. глянул че в фрибейс пишут про силденафил, бля тупо все названия этих таблеток в столбик ебануть - вот тебе и факты.
очень ждем этот алго

Ты действительно думаешь, что Гугл не научился на машинном уровне распознавать качество, релевантность и читабельность текста? Обычными столбиками никакой СЧ или ВЧ ты не достигнешь, имхо.

Больше всего в этой новости меня радует то, что теперь ТЗ для копирайтеров станет писать намного легче и понятней.

Neovin · 10.03.2015, 14:38

Гугл решил пойти отличным от Яндекса путем, который решил сделать ставку на поведенческие факторы. Посмотрим, что из этого выйдет.

Bakalov · 12.03.2015, 17:49

Спокуха, это просто исследование, в ранж внедрять пока не планируют, http://www.youtube.com/watch?v=vzUkMR7F-GI&t=3m20s

klim · 12.03.2015, 20:58

Цитата:

Сообщение от Grut

Ты действительно думаешь, что Гугл не научился на машинном уровне распознавать качество, релевантность и читабельность текста? Обычными столбиками никакой СЧ или ВЧ ты не достигнешь, имхо.

Медиа контент ограничивается текстовым тайтлом и кратким текстовым описанием в медиа фиде (120 символов max). Даже столбики не нужны. Распозновать, какое содержимое присутствует в видео, музыке и картинках гугл не умеет, когда речь идёт о ранжировании. Разве что затасканые картинки с 18+ тематикой могут попасть под фильтр.
Серп не един одним лишь текстом.

8bitcat · 14.03.2015, 20:27

Цитата:

Сообщение от Cttr

Your client does not have permission to get URL /music from this server. That’s all we know.

ты в крыму что ли?