Ресурсы для парсинга типа ahrefs - Форум успешных вебмастеров - GoFuckBiz.com - Страница 2

Регистрация

Сообщения за день

Пользователи

		Форум успешных вебмастеров - GoFuckBiz.com > Бизнес-решения > Скрипты, программы и технические решения
Ресурсы для парсинга типа ahrefs


Дата
USD/RUB	90.2486
BTC/USD	69602.4798

Скрипты, программы и технические решения Обсуждаем скрипты, программы и новые технологии.

Закрытая тема

Страница 2 из 2

2

Опции темы

Опции просмотра

07.04.2013, 18:39	Start Post: Ресурсы для парсинга типа ahrefs #11
7make Senior Member Регистрация: 02.07.2011 Сообщений: 746 Бабло: $196220	Кто может оценить какие ресурсы нужны для парсинга веба по типу ahrefs? Сколько серваков /ТБ места/канал? К примеру, в гугле по запросу site:com - примерно 25 270 000 000 документов Сколько ресурсов и времени нужно пропарсить их? __________________ PharmCash - Лучшие условия и профит в фарме. Hold-0, Refunds-0, Commission–50%, CPU+500. Google нас любит! \| Обучаю Монстр2 нужным вам каптчам

Старый

08.04.2013, 01:26

#12

7make

Senior Member

Аватар для 7make

Регистрация: 02.07.2011

Сообщений: 746
Бабло: $196220

ТС -->

автор темы

ТС

По умолчанию

Цитата:

Сообщение от digg

Посмотреть сообщение

ну, а маркетинг
напарсить, потом то что? бабло надо же отбивать

смотря какие цели преследовались.
даже если продажа доступа к сервису будет покрывать только расходы инфраструктуры, или грубо в 0 выходить, имеем охеренный граф из которого можно многое извлечь.

думаю что ahrefs извлекают с документов больше инфы, чем тупо парсинг ссылок.
имхо, глупо тратить ресурсы каналов, тянуть документ ради парсинга ссылок.

в чем профит?
реверс ПС.
Машинное обучение с учителем, где в роли учителя выступает выдача самой ПС.
Типа если скрестить Семраш+Ахрефс= profit.

__________________
PharmCash - Лучшие условия и профит в фарме. Hold-0, Refunds-0, Commission–50%, CPU+500. Google нас любит! | Обучаю Монстр2 нужным вам каптчам

Последний раз редактировалось 7make; 08.04.2013 в 01:37.

7make вне форума

Старый

08.04.2013, 03:08

#13

Black West

Go Fuck West

Аватар для Black West

Регистрация: 07.05.2011

Адрес: .Net

Сообщений: 1,207
Бабло: $245620

По умолчанию

Цитата:

Сообщение от 7make

Типа если скрестить Семраш+Ахрефс= profit.

Они ж уже давали инфу по кеям, но гугл попросил прикрыть лавочку, видимо, не за просто так.
Да и у ахрефса не только по ссылкам сервисы.

Black West вне форума

08.04.2013, 05:11	#14
chesser автоматизирую интернеты Регистрация: 05.07.2009 Адрес: chesser.ru Сообщений: 3,362 Бабло: $470735	для кролинга с батч-процессингом map-reduce норм, первыми это начали использовать гугл, потом тайком придумали хадуп, и яху его использовал, но году в 2009 гугл открыл свой патент на меп-редъюс и хадуп стал мега-популярен. В том же время, гугл заявил, что они уже используют другую технологию, поэтому и MR открыли. (примерно такая хронология) Параллельно с меп-редьюсом уже набрала популярность концепция (модель) Actors. На ее основе обычно делаются более реалтаймовские штуки, т.е. когда нельзя откладывать расчет на потом. Примеры технологий и ключевых слов: erlang otp, scala akka, storm. Т.е. если надо в реальном времени быстро парсить весь интернет и выдавать результат каких-то вычисление, то это оно. для ТС скорее mapreduce подойдет, хотя советую ознакомится с акторами __________________ USA и NL серверы и VPS \| wiki \| блог \| Drupal \| NginxТДС Ave, Google, morituri te salutant! © chesser

Старый

08.04.2013, 07:30

#15

7make

Senior Member

Аватар для 7make

Регистрация: 02.07.2011

Сообщений: 746
Бабло: $196220

ТС -->

автор темы

ТС

По умолчанию

Цитата:

Сообщение от chesser

Посмотреть сообщение

для кролинга с батч-процессингом map-reduce норм, первыми это начали использовать гугл, потом тайком придумали хадуп, и яху его использовал, но году в 2009 гугл открыл свой патент на меп-редъюс и хадуп стал мега-популярен. В том же время, гугл заявил, что они уже используют другую технологию, поэтому и MR открыли. (примерно такая хронология)

Параллельно с меп-редьюсом уже набрала популярность концепция (модель) Actors. На ее основе обычно делаются более реалтаймовские штуки, т.е. когда нельзя откладывать расчет на потом. Примеры технологий и ключевых слов: erlang otp, scala akka, storm. Т.е. если надо в реальном времени быстро парсить весь интернет и выдавать результат каких-то вычисление, то это оно.

для ТС скорее mapreduce подойдет, хотя советую ознакомится с акторами

спс за наводку.
сегодня читал уже про хадуп, на хабре Калинин серию статей писал как они поиск клепали и раскрыл все +/- этих платформ.

В теории поверхностно все это почитываю давно канешь, но вот практически не юзал. У меня чисто академ интерес юзания всех этих платформ. Сейчас вот сервак простаивает 80% времени, думаю на вмваре развернуть несколько виртуалок под mapreduce из 1 мастера и 3 слейва.

В целом, цель пока тренировочная, поковырять рейтинг яндекс блогов, реверс их интегральной авторитетности.

__________________
PharmCash - Лучшие условия и профит в фарме. Hold-0, Refunds-0, Commission–50%, CPU+500. Google нас любит! | Обучаю Монстр2 нужным вам каптчам

Последний раз редактировалось 7make; 08.04.2013 в 07:43.

7make вне форума

Старый

08.04.2013, 07:48

#16

chesser

автоматизирую интернеты

Аватар для chesser

Регистрация: 05.07.2009

Адрес: chesser.ru

Сообщений: 3,362
Бабло: $470735

По умолчанию

Цитата:

Сообщение от 7make

Посмотреть сообщение

В теории поверхностно все это почитываю давно канешь, но вот практически не юзал. У меня чисто академ интерес юзания всех этих платформ.

еще тут пошарься:
http://www.insight-it.ru/blog/
http://www.insight-it.ru/highload/

вот хороший перевод известной статьи:
http://www.insight-it.ru/masshtabiru...ykh-shablonov/

Цитата:

Все нижеизложенные подходы масштабирования основываются на трех основных принципах: распределении задач, кэшировании промежуточных результатов и отложенном (асинхронном) выполнении части работы.

__________________
USA и NL серверы и VPS | wiki | блог | Drupal | NginxТДС
Ave, Google, morituri te salutant! © chesser

chesser вне форума

08.04.2013, 08:00	#17
WebNinja grablab.org Регистрация: 18.09.2007 Адрес: Thailand Сообщений: 4,893 Бабло: $322264	1000 реквестов в секунду это кстати дохуя. Еще же и 1000 инсертов в БД нужно сделать за эту секунду, что тоже как бы не так то просто. Не говоря уже о том, что чтобы кластер разворачивать который будет работать норм, нужно решить кучу сопутствующих задач, типа организации очереди и т.д. Монговский Мап реюс говорят довольно медленный, недавно разговаривал с типом у которых команда в Пало Альто, он мне примерно обрисовывал какая у них архитектура (переходят на хадуп), но у них даже не крабинг интернета, а просто БД по мобильным приложениям и всякие там тренды. Кстати вся инфраструктура у них развернута на амазоне, говорит очень удобно, основная причина - сложность обслуживания такого большого кол-ва реального железа, а на амазоне еще можно выкупать вычислительные слоты как на рынке, за центы. __________________ www.imscraping.ninja grablab.org \| blog Последний раз редактировалось WebNinja; 08.04.2013 в 08:14.

08.04.2013, 12:09	#18
WebNinja grablab.org Регистрация: 18.09.2007 Адрес: Thailand Сообщений: 4,893 Бабло: $322264	Я думаю что стартануть можно и с 1-2 серверов (1 для краулера другой для БД например), т.е. спарсить серпы по какой-то нише и там анализировать уже этот граф связей, кто куда ссылается. Но для более серезных вещей нужны уже десятки серверов и продуманная архитектора (придется решать задачи, на вскидку - создание хранилища для данных, кэширование, распределенность и т.д.) 200кб например размер странице, пусть например в кэше они будут храниться в зазипованном виде 50кб, итого 2Тб например позволят хранить (2 147 483 648 / 50 = 42 949 672) 42 миллиона страничек. Средний сайт, для примера, 3к страниц, получится примерно 14316 сайтов, что как бы не так уже мало и позволит мониторить какую-то нишу полностью. __________________ www.imscraping.ninja grablab.org \| blog

Старый

08.04.2013, 12:40

#19

7make

Senior Member

Аватар для 7make

Регистрация: 02.07.2011

Сообщений: 746
Бабло: $196220

ТС -->

автор темы

ТС

По умолчанию

Цитата:

Сообщение от WebNinja

Посмотреть сообщение

Я думаю что стартануть можно и с 1-2 серверов (1 для краулера другой для БД например), т.е. спарсить серпы по какой-то нише и там анализировать уже этот граф связей, кто куда ссылается. Но для более серезных вещей нужны уже десятки серверов и продуманная архитектора (придется решать задачи, на вскидку - создание хранилища для данных, кэширование, распределенность и т.д.)

200кб например размер странице, пусть например в кэше они будут храниться в зазипованном виде 50кб, итого 2Тб например позволят хранить (2 147 483 648 / 50 = 42 949 672) 42 миллиона страничек. Средний сайт, для примера, 3к страниц, получится примерно 14316 сайтов, что как бы не так уже мало и позволит мониторить какую-то нишу полностью.

ого ты размер страницы взял.
средний вес по вебу до 20кб, смотри текстовую копию в выдаче.
если нас интересуют чисто ссылки и анкоры, то уложимся в 10кб данных.

__________________
PharmCash - Лучшие условия и профит в фарме. Hold-0, Refunds-0, Commission–50%, CPU+500. Google нас любит! | Обучаю Монстр2 нужным вам каптчам

7make вне форума

Закрытая тема

Страница 2 из 2

2