Общедоступный индекс веба (5 миллиардов веб-страниц) - Форум успешных вебмастеров - GoFuckBiz.com
 
 
Форум успешных вебмастеров - GoFuckBiz.com

  Форум успешных вебмастеров - GoFuckBiz.com > Общий раздел > Новости интернета
Дата
USD/RUB93.4409
BTC/USD64400.1218
Новости интернета Обсуждение самых разных интернет-новостей.

Закрытая тема
Опции темы Опции просмотра
Старый 08.11.2011, 22:32   #1
getalifejerk
Ебланнед
 
Регистрация: 14.01.2011
Сообщений: 86
Бабло: $16370
Отправить сообщение для getalifejerk с помощью ICQ Отправить сообщение для getalifejerk с помощью Skype™
По умолчанию Общедоступный индекс веба (5 миллиардов веб-страниц)

Организация Common Crawl сделала щедрый подарок разработчикам и компаниям, которые работают в области поиска и обработки информации. В открытый доступ на Amazon S3 выложен индекс из 5 миллиардов веб-страниц с метаданными, PageRank и графом гиперссылок.

Если вы видели в логах веб-сервера CCBot/1.0, то это их краулер. Некоммерческая организация Common Crawl выступает за свободу информации и поставила целью сделать общедоступный поисковый индекс, который будет доступен каждому разработчику или стартапу. Предполагается, что это приведёт к созданию целой плеяды инновационных веб-сервисов.

Поисковый кластер Common Crawl работает на Hadoop, данные хранятся в файловой системе HDFS, а обработка осуществляется средствами MapReduce, после чего весь контент сжимается в архивы формата ARC, файлы по 100 МБ (общий объём базы 40-50 ТБ). Файлы можно скачать к себе или напрямую обрабатывать на EC2 с помощью того же MapReduce. Доступ к bucket'у возможен только с флагом Amazon Requester-Pays, то есть для зарегистрированных пользователей EC2 (подробнее о Amazon Requester-Pays здесь). Скачать 40-50 ТБ из внешней сети обойдётся примерно в $130 по текущим расценкам Amazon, обращение через MapReduce внутри EC2 — бесплатно.

Данные доступны практически без ограничений: см. инструкцию по доступу к данным и условия пользования. Запрещено только выкладывать скачанные данные где-то в другом месте, продавать доступ или использовать данные каким-либо незаконным способом.

Добавим, что руководителем Common Crawl Foundation является широко известный в узких кругах Гилад Элбаз (Gilad Elbaz), главный разработчик системы Google AdSense и исполнительный директор стартапа Factual.

Отсюда.

PS: Ну что, ждем когда выкачают и сделают адекватные сервисы-надстройки над базой.
__________________
ProChecker v1 // Proxy Radar v1 // Submittr-β // Автоаппрув база // Бесплатные прокси!! // Skype: letmehelpplz // ICQ: 634873087
getalifejerk вне форума  
Старый 08.11.2011, 22:41   #2
huanpedro
Сеньер Член
 
Аватар для huanpedro
 
Регистрация: 03.04.2010
Сообщений: 1,738
Бабло: $280230
По умолчанию

у меня бровя задергалась.
Это же просто жесть что можно сделать..
huanpedro вне форума  
Старый 09.11.2011, 00:08   #3
Sanchez
Ебланнед
 
Регистрация: 09.10.2011
Адрес: Villa 31
Сообщений: 495
Бабло: $141290
По умолчанию

Цитата:
Запрещено только выкладывать скачанные данные где-то в другом месте, продавать доступ или использовать данные каким-либо незаконным способом.
Offtopic
__________________
http://www.gofuckbiz.com/rules.html - Запрещено оскорбление участников форума: не нужно переходить на личности в негативном контексте во время обсуждения той или иной темы.
Sanchez вне форума  
Старый 09.11.2011, 00:10   #4
chesser
автоматизирую интернеты
 
Аватар для chesser
 
Регистрация: 05.07.2009
Адрес: chesser.ru
Сообщений: 3,362
Бабло: $470735
По умолчанию

Цитата:
Сообщение от Sanchez Посмотреть сообщение
а зачем они тогда нужны?
для аналитики, для вебмайнинга, например

или ты подумал, что они о дорвейщиках и пекарях думали, пока парсили ))
__________________
USA и NL серверы и VPS | wiki | блог | Drupal | NginxТДС
Ave, Google, morituri te salutant! © chesser
chesser вне форума  
Старый 09.11.2011, 00:23   #5
Sanchez
Ебланнед
 
Регистрация: 09.10.2011
Адрес: Villa 31
Сообщений: 495
Бабло: $141290
По умолчанию

Цитата:
Сообщение от chesser Посмотреть сообщение
для аналитики, для вебмайнинга, например

или ты подумал, что они о дорвейщиках и пекарях думали, пока парсили ))
да я понял, тролю просто
__________________
http://www.gofuckbiz.com/rules.html - Запрещено оскорбление участников форума: не нужно переходить на личности в негативном контексте во время обсуждения той или иной темы.
Sanchez вне форума  
Старый 09.11.2011, 00:35   #6
Drunk Monk
Je suis moine ivre
 
Аватар для Drunk Monk
 
Регистрация: 03.03.2009
Сообщений: 15,268
Бабло: $797172957
По умолчанию

А что будет, если выложить? Морские котики через форточку войдут?
Drunk Monk вне форума  
Старый 09.11.2011, 01:40   #7
soul
I am Legend
 
Аватар для soul
 
Регистрация: 14.04.2007
Сообщений: 4,586
Бабло: $899948
По умолчанию

Цитата:
Сообщение от Drunk Monk Посмотреть сообщение
А что будет, если выложить? Морские котики через форточку войдут?
может быть как у тебя на аватарке
soul вне форума  
Старый 09.11.2011, 01:48   #8
Drunk Monk
Je suis moine ivre
 
Аватар для Drunk Monk
 
Регистрация: 03.03.2009
Сообщений: 15,268
Бабло: $797172957
По умолчанию

А что это у тебя за трезвый день рождения, что-ли?
Drunk Monk вне форума  
Старый 09.11.2011, 02:15   #9
WebNinja
grablab.org
 
Аватар для WebNinja
 
Регистрация: 18.09.2007
Адрес: Thailand
Сообщений: 4,893
Бабло: $322264
Отправить сообщение для WebNinja с помощью ICQ Отправить сообщение для WebNinja с помощью Skype™
По умолчанию

есть еще компании которые открытый индекс строят.
http://www.majestic12.co.uk/
http://www.dotnetdotcom.org/ - тут точно скачать можно.

я думаю их щаз масса, стоит только попарсить логи сервера на предмет незнакомых юзерагентов.
__________________
www.imscraping.ninja
grablab.org | blog
WebNinja вне форума  
Старый 09.11.2011, 02:32   #10
CrocGena
CrocMint Russian Support
 
Аватар для CrocGena
 
Регистрация: 06.05.2010
Сообщений: 442
Бабло: $77680
Отправить сообщение для CrocGena с помощью ICQ Отправить сообщение для CrocGena с помощью Skype™
По умолчанию

Всяких сервисов, которые инфу по доменам показывают (которые ещё для линкбилдинга используют) - их и так до фига. Будет видимо ещё больше и с уже готовыми базами

Но не думаю что сразу появятся тучи новых сервисов - слишком большой объём данных - не так просто и хранить и обрабатывать Нужен бюджет чтоб сервис какой-то разработать с таким объёмом данных.

И ещё не понятно насколько всё это будет актуально без обновлений.
__________________
CrocMint - Лучшая Хербал Фарма - теперь и на Русском! Инвайты, ответы на вопросы: ru @ crocmint.com или PM.
CrocGena вне форума