Ресурсы для парсинга типа ahrefs - Форум успешных вебмастеров - GoFuckBiz.com - Страница 2
 
 
Форум успешных вебмастеров - GoFuckBiz.com

  Форум успешных вебмастеров - GoFuckBiz.com > Бизнес-решения > Скрипты, программы и технические решения
Дата
USD/RUB90.1887
BTC/USD67642.2237
Скрипты, программы и технические решения Обсуждаем скрипты, программы и новые технологии.

Закрытая тема
Опции темы Опции просмотра
Старый 07.04.2013, 18:39
Start Post: Ресурсы для парсинга типа ahrefs 
  #11
7make
Senior Member
 
Аватар для 7make
 
Регистрация: 02.07.2011
Сообщений: 746
Бабло: $196220
По умолчанию

Кто может оценить какие ресурсы нужны для парсинга веба по типу ahrefs?
Сколько серваков /ТБ места/канал?

К примеру, в гугле по запросу site:com - примерно 25 270 000 000 документов
Сколько ресурсов и времени нужно пропарсить их?
__________________
PharmCash - Лучшие условия и профит в фарме. Hold-0, Refunds-0, Commission–50%, CPU+500. Google нас любит! | Обучаю Монстр2 нужным вам каптчам
7make вне форума  
Старый 08.04.2013, 01:26   #12
7make
Senior Member
 
Аватар для 7make
 
Регистрация: 02.07.2011
Сообщений: 746
Бабло: $196220
ТС -->
автор темы ТС По умолчанию

Цитата:
Сообщение от digg Посмотреть сообщение
ну, а маркетинг
напарсить, потом то что? бабло надо же отбивать
смотря какие цели преследовались.
даже если продажа доступа к сервису будет покрывать только расходы инфраструктуры, или грубо в 0 выходить, имеем охеренный граф из которого можно многое извлечь.

думаю что ahrefs извлекают с документов больше инфы, чем тупо парсинг ссылок.
имхо, глупо тратить ресурсы каналов, тянуть документ ради парсинга ссылок.

в чем профит?
реверс ПС.
Машинное обучение с учителем, где в роли учителя выступает выдача самой ПС.
Типа если скрестить Семраш+Ахрефс= profit.
__________________
PharmCash - Лучшие условия и профит в фарме. Hold-0, Refunds-0, Commission–50%, CPU+500. Google нас любит! | Обучаю Монстр2 нужным вам каптчам

Последний раз редактировалось 7make; 08.04.2013 в 01:37.
7make вне форума  
Старый 08.04.2013, 03:08   #13
Black West
Go Fuck West
 
Аватар для Black West
 
Регистрация: 07.05.2011
Адрес: .Net
Сообщений: 1,207
Бабло: $245620
По умолчанию

Цитата:
Сообщение от 7make
Типа если скрестить Семраш+Ахрефс= profit.
Они ж уже давали инфу по кеям, но гугл попросил прикрыть лавочку, видимо, не за просто так.
Да и у ахрефса не только по ссылкам сервисы.
Black West вне форума  
Старый 08.04.2013, 05:11   #14
chesser
автоматизирую интернеты
 
Аватар для chesser
 
Регистрация: 05.07.2009
Адрес: chesser.ru
Сообщений: 3,362
Бабло: $470735
По умолчанию

для кролинга с батч-процессингом map-reduce норм, первыми это начали использовать гугл, потом тайком придумали хадуп, и яху его использовал, но году в 2009 гугл открыл свой патент на меп-редъюс и хадуп стал мега-популярен. В том же время, гугл заявил, что они уже используют другую технологию, поэтому и MR открыли. (примерно такая хронология)

Параллельно с меп-редьюсом уже набрала популярность концепция (модель) Actors. На ее основе обычно делаются более реалтаймовские штуки, т.е. когда нельзя откладывать расчет на потом. Примеры технологий и ключевых слов: erlang otp, scala akka, storm. Т.е. если надо в реальном времени быстро парсить весь интернет и выдавать результат каких-то вычисление, то это оно.

для ТС скорее mapreduce подойдет, хотя советую ознакомится с акторами
__________________
USA и NL серверы и VPS | wiki | блог | Drupal | NginxТДС
Ave, Google, morituri te salutant! © chesser
chesser вне форума  
Старый 08.04.2013, 07:30   #15
7make
Senior Member
 
Аватар для 7make
 
Регистрация: 02.07.2011
Сообщений: 746
Бабло: $196220
ТС -->
автор темы ТС По умолчанию

Цитата:
Сообщение от chesser Посмотреть сообщение
для кролинга с батч-процессингом map-reduce норм, первыми это начали использовать гугл, потом тайком придумали хадуп, и яху его использовал, но году в 2009 гугл открыл свой патент на меп-редъюс и хадуп стал мега-популярен. В том же время, гугл заявил, что они уже используют другую технологию, поэтому и MR открыли. (примерно такая хронология)

Параллельно с меп-редьюсом уже набрала популярность концепция (модель) Actors. На ее основе обычно делаются более реалтаймовские штуки, т.е. когда нельзя откладывать расчет на потом. Примеры технологий и ключевых слов: erlang otp, scala akka, storm. Т.е. если надо в реальном времени быстро парсить весь интернет и выдавать результат каких-то вычисление, то это оно.

для ТС скорее mapreduce подойдет, хотя советую ознакомится с акторами
спс за наводку.
сегодня читал уже про хадуп, на хабре Калинин серию статей писал как они поиск клепали и раскрыл все +/- этих платформ.

В теории поверхностно все это почитываю давно канешь, но вот практически не юзал. У меня чисто академ интерес юзания всех этих платформ. Сейчас вот сервак простаивает 80% времени, думаю на вмваре развернуть несколько виртуалок под mapreduce из 1 мастера и 3 слейва.

В целом, цель пока тренировочная, поковырять рейтинг яндекс блогов, реверс их интегральной авторитетности.
__________________
PharmCash - Лучшие условия и профит в фарме. Hold-0, Refunds-0, Commission–50%, CPU+500. Google нас любит! | Обучаю Монстр2 нужным вам каптчам

Последний раз редактировалось 7make; 08.04.2013 в 07:43.
7make вне форума  
Старый 08.04.2013, 07:48   #16
chesser
автоматизирую интернеты
 
Аватар для chesser
 
Регистрация: 05.07.2009
Адрес: chesser.ru
Сообщений: 3,362
Бабло: $470735
По умолчанию

Цитата:
Сообщение от 7make Посмотреть сообщение
В теории поверхностно все это почитываю давно канешь, но вот практически не юзал. У меня чисто академ интерес юзания всех этих платформ.
еще тут пошарься:
http://www.insight-it.ru/blog/
http://www.insight-it.ru/highload/

вот хороший перевод известной статьи:
http://www.insight-it.ru/masshtabiru...ykh-shablonov/

Цитата:
Все нижеизложенные подходы масштабирования основываются на трех основных принципах: распределении задач, кэшировании промежуточных результатов и отложенном (асинхронном) выполнении части работы.
__________________
USA и NL серверы и VPS | wiki | блог | Drupal | NginxТДС
Ave, Google, morituri te salutant! © chesser
chesser вне форума  
Старый 08.04.2013, 08:00   #17
WebNinja
grablab.org
 
Аватар для WebNinja
 
Регистрация: 18.09.2007
Адрес: Thailand
Сообщений: 4,893
Бабло: $322264
Отправить сообщение для WebNinja с помощью ICQ Отправить сообщение для WebNinja с помощью Skype™
По умолчанию

1000 реквестов в секунду это кстати дохуя. Еще же и 1000 инсертов в БД нужно сделать за эту секунду, что тоже как бы не так то просто. Не говоря уже о том, что чтобы кластер разворачивать который будет работать норм, нужно решить кучу сопутствующих задач, типа организации очереди и т.д.

Монговский Мап реюс говорят довольно медленный, недавно разговаривал с типом у которых команда в Пало Альто, он мне примерно обрисовывал какая у них архитектура (переходят на хадуп), но у них даже не крабинг интернета, а просто БД по мобильным приложениям и всякие там тренды. Кстати вся инфраструктура у них развернута на амазоне, говорит очень удобно, основная причина - сложность обслуживания такого большого кол-ва реального железа, а на амазоне еще можно выкупать вычислительные слоты как на рынке, за центы.
__________________
www.imscraping.ninja
grablab.org | blog

Последний раз редактировалось WebNinja; 08.04.2013 в 08:14.
WebNinja вне форума  
Старый 08.04.2013, 12:09   #18
WebNinja
grablab.org
 
Аватар для WebNinja
 
Регистрация: 18.09.2007
Адрес: Thailand
Сообщений: 4,893
Бабло: $322264
Отправить сообщение для WebNinja с помощью ICQ Отправить сообщение для WebNinja с помощью Skype™
По умолчанию

Я думаю что стартануть можно и с 1-2 серверов (1 для краулера другой для БД например), т.е. спарсить серпы по какой-то нише и там анализировать уже этот граф связей, кто куда ссылается. Но для более серезных вещей нужны уже десятки серверов и продуманная архитектора (придется решать задачи, на вскидку - создание хранилища для данных, кэширование, распределенность и т.д.)

200кб например размер странице, пусть например в кэше они будут храниться в зазипованном виде 50кб, итого 2Тб например позволят хранить (2 147 483 648 / 50 = 42 949 672) 42 миллиона страничек. Средний сайт, для примера, 3к страниц, получится примерно 14316 сайтов, что как бы не так уже мало и позволит мониторить какую-то нишу полностью.
__________________
www.imscraping.ninja
grablab.org | blog
WebNinja вне форума  
Старый 08.04.2013, 12:40   #19
7make
Senior Member
 
Аватар для 7make
 
Регистрация: 02.07.2011
Сообщений: 746
Бабло: $196220
ТС -->
автор темы ТС По умолчанию

Цитата:
Сообщение от WebNinja Посмотреть сообщение
Я думаю что стартануть можно и с 1-2 серверов (1 для краулера другой для БД например), т.е. спарсить серпы по какой-то нише и там анализировать уже этот граф связей, кто куда ссылается. Но для более серезных вещей нужны уже десятки серверов и продуманная архитектора (придется решать задачи, на вскидку - создание хранилища для данных, кэширование, распределенность и т.д.)

200кб например размер странице, пусть например в кэше они будут храниться в зазипованном виде 50кб, итого 2Тб например позволят хранить (2 147 483 648 / 50 = 42 949 672) 42 миллиона страничек. Средний сайт, для примера, 3к страниц, получится примерно 14316 сайтов, что как бы не так уже мало и позволит мониторить какую-то нишу полностью.
ого ты размер страницы взял.
средний вес по вебу до 20кб, смотри текстовую копию в выдаче.
если нас интересуют чисто ссылки и анкоры, то уложимся в 10кб данных.
__________________
PharmCash - Лучшие условия и профит в фарме. Hold-0, Refunds-0, Commission–50%, CPU+500. Google нас любит! | Обучаю Монстр2 нужным вам каптчам
7make вне форума