|
| Дата |
|
USD/RUB | 93.4409 | BTC/USD | 64400.1218 |
|
|
|
Скрипты, программы и технические решения Обсуждаем скрипты, программы и новые технологии. |
07.04.2013, 18:39
|
#1
|
Senior Member
Регистрация: 02.07.2011
Сообщений: 746
Бабло: $196220
|
Ресурсы для парсинга типа ahrefs
Кто может оценить какие ресурсы нужны для парсинга веба по типу ahrefs?
Сколько серваков /ТБ места/канал?
К примеру, в гугле по запросу site:com - примерно 25 270 000 000 документов
Сколько ресурсов и времени нужно пропарсить их?
|
|
|
07.04.2013, 19:00
|
#3
|
главный злодей гофака
Регистрация: 18.06.2007
Сообщений: 5,760
Бабло: $953648
|
Цитата:
Сообщение от 7make
Сколько ресурсов и времени нужно пропарсить их?
|
попарсить это фигня, берешь серваки с анлим каналом и вперед. 25TB / средний вес страницы = количество страниц в месяц. самое главное правильная архитектура софта для анализа, там уже побольше мощностей надо.
__________________
|
|
|
07.04.2013, 19:06
|
#4
|
Senior Medved
Регистрация: 15.06.2008
Сообщений: 4,146
Бабло: $22479945
|
Цитата:
Сообщение от inkubus
|
Смыл амазон брать там цены за трафик пиздецкакие.
Тут пощитал если с одного сервака парсить в 1000 страниц в секунду, то на 292 дня , то есть чтоб за месяц напарсить всё , надо 10 серваков примерно.
|
|
|
07.04.2013, 19:10
|
#5
|
Senior Member
Регистрация: 16.07.2009
Сообщений: 938
Бабло: $152632
|
Цитата:
Сообщение от sspy
попарсить это фигня, берешь серваки с анлим каналом и вперед. 25TB / средний вес страницы = количество страниц в месяц. самое главное правильная архитектура софта для анализа, там уже побольше мощностей надо.
|
Суммарная мощность ахрефс 25 тфлопс по их заявлениям.
|
|
|
07.04.2013, 20:18
|
#6
|
Senior Member
Регистрация: 02.07.2011
Сообщений: 746
Бабло: $196220
ТС -->
|
ТС
MapReduce самое то для таких задач?
В плане построения архитектуры.
На чем такое строят?
Последний раз редактировалось 7make; 07.04.2013 в 20:24.
|
|
|
07.04.2013, 20:39
|
#7
|
grablab.org
Регистрация: 18.09.2007
Адрес: Thailand
Сообщений: 4,893
Бабло: $322264
|
Цитата:
Сообщение от sspy
попарсить это фигня, берешь серваки с анлим каналом и вперед. 25TB / средний вес страницы = количество страниц в месяц. самое главное правильная архитектура софта для анализа, там уже побольше мощностей надо.
|
ну конечно
Цитата:
Смыл амазон брать там цены за трафик пиздецкакие.
|
там можно выкупать споты вычислительные очень дешево + инстансы могут работать только тогда когда нужно а не круглые сутки.
25 270 000 000 например 1000 страниц в секунду, 7019 часов или 292 дня.
|
|
|
07.04.2013, 21:24
|
#8
|
главный злодей гофака
Регистрация: 18.06.2007
Сообщений: 5,760
Бабло: $953648
|
Цитата:
Сообщение от WebNinja
ну конечно
|
еще один безаргументный и необоснованный критик моего экспертного опыта и светлого ума затмевающего солнце. лучше бы ты питонил себе там дальше и не лез в топик, где серъезные дяди общаются.
Цитата:
Сообщение от 7make
MapReduce самое то для таких задач?
В плане построения архитектуры.
На чем такое строят?
|
да, Hadoop и другие разработки Apache Foundation идеально для этого подойдут
__________________
|
|
|
08.04.2013, 00:17
|
#9
|
Шоколатье
Регистрация: 20.04.2007
Сообщений: 5,973
Бабло: $726105
|
про ахрефс :
Цитата:
The service has grown up since that time: the first cluster of 6 handmade servers was replaced with mighty 25TFlops cluster in modern world-class datacentre.
Nowadays we crawl up to 6 billion pages a day. Hard to believe – it’s only three times less than Googlebot does!
|
всего на треть медленней гуглбота. начинали с кластера на 6 серваков.
|
|
|
08.04.2013, 00:50
|
#10
|
$400
Регистрация: 17.05.2009
Сообщений: 13,952
Бабло: $1895770
|
ну, а маркетинг
напарсить, потом то что? бабло надо же отбивать
|
|
|
|