Форум успешных вебмастеров - GoFuckBiz.com

  Форум успешных вебмастеров - GoFuckBiz.com > Бизнес-решения > Поисковые системы
Дата
USD/RUB59.1710
BTC/USD0.0000
Поисковые системы Поисковая оптимизация под Google, Yahoo, Bing и т.д.

Закрытая тема
Опции темы Опции просмотра
Старый 28.09.2014, 05:08   #1
Narval
Member
 
Регистрация: 26.01.2014
Сообщений: 62
Бабло: $28788
По умолчанию Google Brain - кто что думает?

Google применил технологии Deep Learning для борьбы с поисковым спамом

18 сентября был опубликован патент Google на классификацию поискового спама «Классификация ресурсов с использованием самообучающейся сети» (Classifying Resources Using a Deep Network ). Об этом сообщает SEO-эксперт Билл Славски (Bill Slawski).

Запатентованная технология была изобретена разработчиками компании Цинчжоу Ван (Qingzhou Wang), Ю Лян(Yu Liang), Ке Ян (Ke Yang) и Кай Чэнь (Kai Chen).

Последние несколько лет лидер поиска был занят построением самообучающейся сети, известной как Google Brain.

Google Brain – неофициальное название исследовательского проекта Google, посвященного глубокому обучению (Deep Learning). В рамках этого проекта исследователи компании смогли создать примерную модель работы нейронов головного мозга – «нейрональную» самообучающуюся сеть, соединив 16,000 процессоров и подключив её к сети Интернет. Полученная система сумела самостоятельно обучиться распознавать образ котов.

Теперь компания использует эти технологии для идентификации поискового спама, что нашло выражение в разработке патента на его классификацию.

Патент описывает методы, которые включают:

прием входящей информации, содержащей множество характеристик ресурса, в котором каждая характеристика – это значение соответствующего атрибута ресурса;
обработку каждой характеристики, используя соответствующую функцию вложения для генерации одного или нескольких числовых значений;
обработку числовых значений, используя один или несколько нейронных сетевых уровней для создания альтернативного представления о характеристиках ресурса, в котором обработка значений с эластичными параметрами включает применение к ним одного или нескольких нелинейных преобразований;
обработку альтернативного представления входа с использованием классификатора для генерации соответствующей оценки для каждой категории в их заранее определенном наборе, где каждая из соответствующих оценок измеряет прогнозированную вероятность, что ресурс принадлежит к соответствующей категории.

«Предопределенный набор категорий» может включать категорию спама поисковых систем. Оценка категории (category score) для ресурса измеряет предсказанную вероятность, что ресурс является поисковым спамом.


Предопределенный набор категорий может включать в себя соответствующую категорию для каждого из множества типов поискового спама.

Оценки категорий могут быть использованы для:

определения, следует ли добавлять эти ресурсы в индекс поисковых систем;
генерирования и упорядочивания результатов поиска в ответ на поисковые запросы.

Самообучающаяся сеть может быть эффективно использована для классификации ресурсов в категории. Например, ресурсы могут быть классифицированы как являющиеся или не являющиеся спамом, как являющиеся одним из нескольких видов спама или как один из двух и больше типов ресурсов.

«Использование самообучающейся сети для классификации ресурсов по категориям может привести к тому, что поисковые системы будут способны лучше удовлетворить информационные потребности пользователей путем эффективного определения поискового спама и воздержания от предоставления поисковых результатов, определяющих такие ресурсы, пользователям. Или же они смогут предоставить поисковые результаты, которые идентифицируют ресурсы, принадлежащие к категориям, лучше соответствующим информационным потребностям пользователя» - поясняют разработчики в патенте.

Согласно патенту, эта система классификации ресурсов может типизировать ресурсы как «поисковый спам или не поисковый спам». Она не определяет детали веб-спама, но говорит о том, что может выделить его типичные виды, такие как:

контент-спам;
ресурсы, содержащие ссылочный спам;
ресурсы, использующие клоакинг;
и т.д.

Ресурсы на страницах сайта могут включать слова из контента сайта в символьной форме; URL-ы сайта; его тайтл; имя домена; категории или типы объектов, относящиеся к сайту; его возраст. Каждая из этих характеристик может быть использована для расчета вероятности того, что сайт является спам-ресурсом, и определения, индексировать его или понижать в выдаче.

Патент не предоставляет деталей относительно обучения и классификации характеристик в рамках модели машинного обучения, но ссылается на документ, который дает эту информацию: Large Scale Distributed Deep Networks.

Последний раз редактировалось Narval; 28.09.2014 в 05:14.
Narval вне форума  
Старый 28.09.2014, 05:49   #2
Cannabis Cup
Senior Member
 
Регистрация: 09.07.2014
Адрес: ny
Сообщений: 2,107
Бабло: $294410
По умолчанию

сюда тока картинок с мемов понавтыкать, по теме, 'мое лицо когда мне говорят', или 'расскажи мне как ты будешь'
другова ниче сказать нельзя
Cannabis Cup вне форума  
Старый 28.09.2014, 07:53   #3
Final Fantasy
private.
 
Аватар для Final Fantasy
 
Регистрация: 30.04.2008
Сообщений: 3,488
Бабло: $405940
По умолчанию

Так доры в 2010 умерли еще
Final Fantasy вне форума  
Старый 28.09.2014, 08:03   #4
Cannabis Cup
Senior Member
 
Регистрация: 09.07.2014
Адрес: ny
Сообщений: 2,107
Бабло: $294410
По умолчанию

Цитата:
Сообщение от Final Fantasy Посмотреть сообщение
Так доры в 2010 умерли еще
ато ж. тото я и смотрю весь гугл сдлами заполнен
Cannabis Cup вне форума  
Старый 28.09.2014, 08:58   #5
CAMOCBAJI
старый дрындулет
 
Аватар для CAMOCBAJI
 
Регистрация: 25.10.2009
Адрес: Central Asia
Сообщений: 874
Бабло: $155158
По умолчанию

Когда в гугле придумывают всякие говнопроекты по выявлению спама и прочего по серо-белому работать становиться вообще невозможно.

Пирогам станет еще лучше
CAMOCBAJI вне форума  
Старый 28.09.2014, 09:01   #6
Cannabis Cup
Senior Member
 
Регистрация: 09.07.2014
Адрес: ny
Сообщений: 2,107
Бабло: $294410
По умолчанию

вовов!11 пока не придумали фильтр пирожковых фабрик, ваще пох*й
Cannabis Cup вне форума  
Старый 29.09.2014, 12:49   #7
vkusnoserver
это Энди
 
Аватар для vkusnoserver
 
Регистрация: 07.05.2011
Сообщений: 543
Бабло: $64730
Отправить сообщение для vkusnoserver с помощью Skype™
По умолчанию

Кстати, рекомендую читать патенты Гугла. Достаточно полезное чтиво.
__________________
Хорошо делай, хорошо будет.
vkusnoserver вне форума  
Старый 29.09.2014, 14:24   #8
googleum
big bro
 
Аватар для googleum
 
Регистрация: 12.07.2008
Сообщений: 778
Бабло: $357940846
По умолчанию

Фигню придумали! Самое эффективное это поведенческое выявление спама, весь интернет контролируют, неужели этого мало. Вообще удивляюсь как еще дорам получаеться так долго жить с их то ресурсами.

Хотя в гугле бывают необъяснимые алго, это как с имаджами пару лет назад, когда пижженая имаджа ставала выше в выдаче чем оригинал) Года два работали и удивлялись ну какого хуя, как же так тупить.. ну ладно.
googleum вне форума  
Старый 29.09.2014, 14:36   #9
Крушу Ебала
Senior Member
 
Аватар для Крушу Ебала
 
Регистрация: 13.02.2011
Сообщений: 4,702
Бабло: $1131380
По умолчанию

Цитата:
Сообщение от CAMOCBAJI
по серо-белому работать становиться вообще невозможно
Кстати, да
Просто они ждут, что белые проекты сами по себе встанут в топ... со временем... возможно
Крушу Ебала вне форума  
Старый 29.09.2014, 14:37   #10
Dadee
Шоколатье
 
Аватар для Dadee
 
Регистрация: 20.04.2007
Сообщений: 5,967
Бабло: $715885
По умолчанию

дорам пиздец, че тут думать.
ловим последние крохи трафа и расходимся
__________________
Зарабатывай с SearchAnyway. Отличные биды и уникальный фид
Dadee вне форума  
Закрытая тема



Опции темы
Опции просмотра