|
| Дата |
|
USD/RUB | 90.2486 | BTC/USD | 69602.4798 |
|
|
|
Скрипты, программы и технические решения Обсуждаем скрипты, программы и новые технологии. |
07.04.2013, 18:39
|
Start Post: Ресурсы для парсинга типа ahrefs
|
Senior Member
Регистрация: 02.07.2011
Сообщений: 746
Бабло: $196220
|
Кто может оценить какие ресурсы нужны для парсинга веба по типу ahrefs?
Сколько серваков /ТБ места/канал?
К примеру, в гугле по запросу site:com - примерно 25 270 000 000 документов
Сколько ресурсов и времени нужно пропарсить их?
|
|
|
08.04.2013, 01:26
|
#12
|
Senior Member
Регистрация: 02.07.2011
Сообщений: 746
Бабло: $196220
ТС -->
|
ТС
Цитата:
Сообщение от digg
ну, а маркетинг
напарсить, потом то что? бабло надо же отбивать
|
смотря какие цели преследовались.
даже если продажа доступа к сервису будет покрывать только расходы инфраструктуры, или грубо в 0 выходить, имеем охеренный граф из которого можно многое извлечь.
думаю что ahrefs извлекают с документов больше инфы, чем тупо парсинг ссылок.
имхо, глупо тратить ресурсы каналов, тянуть документ ради парсинга ссылок.
в чем профит?
реверс ПС.
Машинное обучение с учителем, где в роли учителя выступает выдача самой ПС.
Типа если скрестить Семраш+Ахрефс= profit.
Последний раз редактировалось 7make; 08.04.2013 в 01:37.
|
|
|
08.04.2013, 03:08
|
#13
|
Go Fuck West
Регистрация: 07.05.2011
Адрес: .Net
Сообщений: 1,207
Бабло: $245620
|
Цитата:
Сообщение от 7make
Типа если скрестить Семраш+Ахрефс= profit.
|
Они ж уже давали инфу по кеям, но гугл попросил прикрыть лавочку, видимо, не за просто так.
Да и у ахрефса не только по ссылкам сервисы.
|
|
|
08.04.2013, 05:11
|
#14
|
автоматизирую интернеты
Регистрация: 05.07.2009
Адрес: chesser.ru
Сообщений: 3,362
Бабло: $470735
|
для кролинга с батч-процессингом map-reduce норм, первыми это начали использовать гугл, потом тайком придумали хадуп, и яху его использовал, но году в 2009 гугл открыл свой патент на меп-редъюс и хадуп стал мега-популярен. В том же время, гугл заявил, что они уже используют другую технологию, поэтому и MR открыли. (примерно такая хронология)
Параллельно с меп-редьюсом уже набрала популярность концепция (модель) Actors. На ее основе обычно делаются более реалтаймовские штуки, т.е. когда нельзя откладывать расчет на потом. Примеры технологий и ключевых слов: erlang otp, scala akka, storm. Т.е. если надо в реальном времени быстро парсить весь интернет и выдавать результат каких-то вычисление, то это оно.
для ТС скорее mapreduce подойдет, хотя советую ознакомится с акторами
|
|
|
08.04.2013, 07:30
|
#15
|
Senior Member
Регистрация: 02.07.2011
Сообщений: 746
Бабло: $196220
ТС -->
|
ТС
Цитата:
Сообщение от chesser
для кролинга с батч-процессингом map-reduce норм, первыми это начали использовать гугл, потом тайком придумали хадуп, и яху его использовал, но году в 2009 гугл открыл свой патент на меп-редъюс и хадуп стал мега-популярен. В том же время, гугл заявил, что они уже используют другую технологию, поэтому и MR открыли. (примерно такая хронология)
Параллельно с меп-редьюсом уже набрала популярность концепция (модель) Actors. На ее основе обычно делаются более реалтаймовские штуки, т.е. когда нельзя откладывать расчет на потом. Примеры технологий и ключевых слов: erlang otp, scala akka, storm. Т.е. если надо в реальном времени быстро парсить весь интернет и выдавать результат каких-то вычисление, то это оно.
для ТС скорее mapreduce подойдет, хотя советую ознакомится с акторами
|
спс за наводку.
сегодня читал уже про хадуп, на хабре Калинин серию статей писал как они поиск клепали и раскрыл все +/- этих платформ.
В теории поверхностно все это почитываю давно канешь, но вот практически не юзал. У меня чисто академ интерес юзания всех этих платформ. Сейчас вот сервак простаивает 80% времени, думаю на вмваре развернуть несколько виртуалок под mapreduce из 1 мастера и 3 слейва.
В целом, цель пока тренировочная, поковырять рейтинг яндекс блогов, реверс их интегральной авторитетности.
Последний раз редактировалось 7make; 08.04.2013 в 07:43.
|
|
|
08.04.2013, 07:48
|
#16
|
автоматизирую интернеты
Регистрация: 05.07.2009
Адрес: chesser.ru
Сообщений: 3,362
Бабло: $470735
|
Цитата:
Сообщение от 7make
В теории поверхностно все это почитываю давно канешь, но вот практически не юзал. У меня чисто академ интерес юзания всех этих платформ.
|
еще тут пошарься:
http://www.insight-it.ru/blog/
http://www.insight-it.ru/highload/
вот хороший перевод известной статьи:
http://www.insight-it.ru/masshtabiru...ykh-shablonov/
Цитата:
Все нижеизложенные подходы масштабирования основываются на трех основных принципах: распределении задач, кэшировании промежуточных результатов и отложенном (асинхронном) выполнении части работы.
|
|
|
|
08.04.2013, 08:00
|
#17
|
grablab.org
Регистрация: 18.09.2007
Адрес: Thailand
Сообщений: 4,893
Бабло: $322264
|
1000 реквестов в секунду это кстати дохуя. Еще же и 1000 инсертов в БД нужно сделать за эту секунду, что тоже как бы не так то просто. Не говоря уже о том, что чтобы кластер разворачивать который будет работать норм, нужно решить кучу сопутствующих задач, типа организации очереди и т.д.
Монговский Мап реюс говорят довольно медленный, недавно разговаривал с типом у которых команда в Пало Альто, он мне примерно обрисовывал какая у них архитектура (переходят на хадуп), но у них даже не крабинг интернета, а просто БД по мобильным приложениям и всякие там тренды. Кстати вся инфраструктура у них развернута на амазоне, говорит очень удобно, основная причина - сложность обслуживания такого большого кол-ва реального железа, а на амазоне еще можно выкупать вычислительные слоты как на рынке, за центы.
Последний раз редактировалось WebNinja; 08.04.2013 в 08:14.
|
|
|
08.04.2013, 12:09
|
#18
|
grablab.org
Регистрация: 18.09.2007
Адрес: Thailand
Сообщений: 4,893
Бабло: $322264
|
Я думаю что стартануть можно и с 1-2 серверов (1 для краулера другой для БД например), т.е. спарсить серпы по какой-то нише и там анализировать уже этот граф связей, кто куда ссылается. Но для более серезных вещей нужны уже десятки серверов и продуманная архитектора (придется решать задачи, на вскидку - создание хранилища для данных, кэширование, распределенность и т.д.)
200кб например размер странице, пусть например в кэше они будут храниться в зазипованном виде 50кб, итого 2Тб например позволят хранить (2 147 483 648 / 50 = 42 949 672) 42 миллиона страничек. Средний сайт, для примера, 3к страниц, получится примерно 14316 сайтов, что как бы не так уже мало и позволит мониторить какую-то нишу полностью.
|
|
|
08.04.2013, 12:40
|
#19
|
Senior Member
Регистрация: 02.07.2011
Сообщений: 746
Бабло: $196220
ТС -->
|
ТС
Цитата:
Сообщение от WebNinja
Я думаю что стартануть можно и с 1-2 серверов (1 для краулера другой для БД например), т.е. спарсить серпы по какой-то нише и там анализировать уже этот граф связей, кто куда ссылается. Но для более серезных вещей нужны уже десятки серверов и продуманная архитектора (придется решать задачи, на вскидку - создание хранилища для данных, кэширование, распределенность и т.д.)
200кб например размер странице, пусть например в кэше они будут храниться в зазипованном виде 50кб, итого 2Тб например позволят хранить (2 147 483 648 / 50 = 42 949 672) 42 миллиона страничек. Средний сайт, для примера, 3к страниц, получится примерно 14316 сайтов, что как бы не так уже мало и позволит мониторить какую-то нишу полностью.
|
ого ты размер страницы взял.
средний вес по вебу до 20кб, смотри текстовую копию в выдаче.
если нас интересуют чисто ссылки и анкоры, то уложимся в 10кб данных.
|
|
|
|