Общедоступный индекс веба (5 миллиардов веб-страниц) - Форум успешных вебмастеров - GoFuckBiz.com - Страница 2
 
 
Форум успешных вебмастеров - GoFuckBiz.com

  Форум успешных вебмастеров - GoFuckBiz.com > Общий раздел > Новости интернета
Дата
USD/RUB88.4375
BTC/USD67453.9408
Новости интернета Обсуждение самых разных интернет-новостей.

Закрытая тема
Опции темы Опции просмотра
Старый 08.11.2011, 22:32
Start Post: Общедоступный индекс веба (5 миллиардов веб-страниц) 
  #11
getalifejerk
Ебланнед
 
Регистрация: 14.01.2011
Сообщений: 86
Бабло: $16370
Отправить сообщение для getalifejerk с помощью ICQ Отправить сообщение для getalifejerk с помощью Skype™
По умолчанию

Организация Common Crawl сделала щедрый подарок разработчикам и компаниям, которые работают в области поиска и обработки информации. В открытый доступ на Amazon S3 выложен индекс из 5 миллиардов веб-страниц с метаданными, PageRank и графом гиперссылок.

Если вы видели в логах веб-сервера CCBot/1.0, то это их краулер. Некоммерческая организация Common Crawl выступает за свободу информации и поставила целью сделать общедоступный поисковый индекс, который будет доступен каждому разработчику или стартапу. Предполагается, что это приведёт к созданию целой плеяды инновационных веб-сервисов.

Поисковый кластер Common Crawl работает на Hadoop, данные хранятся в файловой системе HDFS, а обработка осуществляется средствами MapReduce, после чего весь контент сжимается в архивы формата ARC, файлы по 100 МБ (общий объём базы 40-50 ТБ). Файлы можно скачать к себе или напрямую обрабатывать на EC2 с помощью того же MapReduce. Доступ к bucket'у возможен только с флагом Amazon Requester-Pays, то есть для зарегистрированных пользователей EC2 (подробнее о Amazon Requester-Pays здесь). Скачать 40-50 ТБ из внешней сети обойдётся примерно в $130 по текущим расценкам Amazon, обращение через MapReduce внутри EC2 — бесплатно.

Данные доступны практически без ограничений: см. инструкцию по доступу к данным и условия пользования. Запрещено только выкладывать скачанные данные где-то в другом месте, продавать доступ или использовать данные каким-либо незаконным способом.

Добавим, что руководителем Common Crawl Foundation является широко известный в узких кругах Гилад Элбаз (Gilad Elbaz), главный разработчик системы Google AdSense и исполнительный директор стартапа Factual.

Отсюда.

PS: Ну что, ждем когда выкачают и сделают адекватные сервисы-надстройки над базой.
__________________
ProChecker v1 // Proxy Radar v1 // Submittr-β // Автоаппрув база // Бесплатные прокси!! // Skype: letmehelpplz // ICQ: 634873087
getalifejerk вне форума  
Старый 09.11.2011, 08:25   #12
jskorvin
добрый леприкон
 
Аватар для jskorvin
 
Регистрация: 05.03.2009
Сообщений: 378
Бабло: $56978
По умолчанию

Я нихрена там непонял, реально вытянуть страницы по признакам? Парсить это можно?)
__________________
EvaPharmacy - лучшая фарма партнерка (ICQ: 750000 Jabber: [email protected]) / Помощь детям.
jskorvin вне форума  
Старый 09.11.2011, 09:20   #13
Nosfer
n/a
 
Аватар для Nosfer
 
Регистрация: 18.02.2009
Сообщений: 162
Бабло: $46620
По умолчанию

а беки таким макаром дергать можно будет когда яха загнется?
Nosfer вне форума  
Старый 09.11.2011, 10:15   #14
WebNinja
grablab.org
 
Аватар для WebNinja
 
Регистрация: 18.09.2007
Адрес: Thailand
Сообщений: 4,891
Бабло: $322264
Отправить сообщение для WebNinja с помощью ICQ Отправить сообщение для WebNinja с помощью Skype™
По умолчанию

я думаю это основной коммерческий стимул тех кто создаёт подобные системы.
__________________
www.imscraping.ninja
grablab.org | blog
WebNinja вне форума  
Старый 09.11.2011, 19:00   #15
chesser
автоматизирую интернеты
 
Аватар для chesser
 
Регистрация: 05.07.2009
Адрес: chesser.ru
Сообщений: 3,354
Бабло: $470735
По умолчанию

Слишком сыроват подарок для конечного потребителя.

Средние группы ВМ - возможно осилят, и то проще забить и заниматься свои делом.
А подарок этот для крупняка, который работает именно в этом направлении.

С год назад гугл выложил базу n-грамм - это же просто нереально ценная информация для генерации текста, и чтобы ее собрать нужен кластер из нескольких сот машин и времени месяцы. Гугл подарил и все начали писать генераторы? - хуй там

поэтому хватит дрочить на эту новость, всем работать
__________________
USA и NL серверы и VPS | wiki | блог | Drupal | NginxТДС
Ave, Google, morituri te salutant! © chesser
chesser вне форума  
Старый 09.11.2011, 19:18   #16
Drunk Monk
Je suis moine ivre
 
Аватар для Drunk Monk
 
Регистрация: 03.03.2009
Сообщений: 15,249
Бабло: $797172957
По умолчанию

Ты же вроде бы писал генератор какой-то злой?
Drunk Monk вне форума  
Старый 09.11.2011, 19:41   #17
chesser
автоматизирую интернеты
 
Аватар для chesser
 
Регистрация: 05.07.2009
Адрес: chesser.ru
Сообщений: 3,354
Бабло: $470735
По умолчанию

Цитата:
Сообщение от Drunk Monk Посмотреть сообщение
Ты же вроде бы писал генератор какой-то злой?
Offtopic

генератор - это да,
но я про участие новой выложенной халявы в наших обыденных трудовых процессах. И эта халява даже близко не про среднестатистического ВМа, и не про его сподручного кодера, имхо
__________________
USA и NL серверы и VPS | wiki | блог | Drupal | NginxТДС
Ave, Google, morituri te salutant! © chesser
chesser вне форума  
Старый 09.11.2011, 23:41   #18
huanpedro
Сеньер Член
 
Аватар для huanpedro
 
Регистрация: 03.04.2010
Сообщений: 1,738
Бабло: $280230
По умолчанию

Цитата:
Сообщение от chesser Посмотреть сообщение
Offtopic
тоже все подобными идеями страдаю
huanpedro вне форума