Ресурсы для парсинга типа ahrefs - Форум успешных вебмастеров - GoFuckBiz.com
 
 
Форум успешных вебмастеров - GoFuckBiz.com

  Форум успешных вебмастеров - GoFuckBiz.com > Бизнес-решения > Скрипты, программы и технические решения
Дата
USD/RUB93.4409
BTC/USD64400.1218
Скрипты, программы и технические решения Обсуждаем скрипты, программы и новые технологии.

Закрытая тема
Опции темы Опции просмотра
Старый 07.04.2013, 18:39   #1
7make
Senior Member
 
Аватар для 7make
 
Регистрация: 02.07.2011
Сообщений: 746
Бабло: $196220
По умолчанию Ресурсы для парсинга типа ahrefs

Кто может оценить какие ресурсы нужны для парсинга веба по типу ahrefs?
Сколько серваков /ТБ места/канал?

К примеру, в гугле по запросу site:com - примерно 25 270 000 000 документов
Сколько ресурсов и времени нужно пропарсить их?
__________________
PharmCash - Лучшие условия и профит в фарме. Hold-0, Refunds-0, Commission–50%, CPU+500. Google нас любит! | Обучаю Монстр2 нужным вам каптчам
7make вне форума  
Старый 07.04.2013, 18:52   #2
inkubus
Senior Member
 
Аватар для inkubus
 
Регистрация: 11.02.2010
Сообщений: 928
Бабло: $176835
По умолчанию

http://www.michaelnielsen.org/ddi/ho...s-in-40-hours/ для размышлений

Цитата:
I crawled 250,113,669 pages for just under 580 dollars in 39 hours and 25 minutes, using 20 Amazon EC2 machine instances.
inkubus вне форума  
Старый 07.04.2013, 19:00   #3
sspy
главный злодей гофака
 
Аватар для sspy
 
Регистрация: 18.06.2007
Сообщений: 5,760
Бабло: $953648
По умолчанию

Цитата:
Сообщение от 7make Посмотреть сообщение
Сколько ресурсов и времени нужно пропарсить их?
попарсить это фигня, берешь серваки с анлим каналом и вперед. 25TB / средний вес страницы = количество страниц в месяц. самое главное правильная архитектура софта для анализа, там уже побольше мощностей надо.
__________________
sspy вне форума  
Старый 07.04.2013, 19:06   #4
dady
Senior Medved
 
Аватар для dady
 
Регистрация: 15.06.2008
Сообщений: 4,146
Бабло: $22479945
По умолчанию

Цитата:
Сообщение от inkubus Посмотреть сообщение
Смыл амазон брать там цены за трафик пиздецкакие.
Тут пощитал если с одного сервака парсить в 1000 страниц в секунду, то на 292 дня , то есть чтоб за месяц напарсить всё , надо 10 серваков примерно.
__________________
Аппрув США >91% и Европа >90% Сливай фарму на Pharmcash - получай хрустящий кэш! / Спонсор! Докажи, что твоя партнерка №1 / 2019
dady вне форума  
Старый 07.04.2013, 19:10   #5
spamless
Senior Member
 
Регистрация: 16.07.2009
Сообщений: 938
Бабло: $152632
По умолчанию

Цитата:
Сообщение от sspy Посмотреть сообщение
попарсить это фигня, берешь серваки с анлим каналом и вперед. 25TB / средний вес страницы = количество страниц в месяц. самое главное правильная архитектура софта для анализа, там уже побольше мощностей надо.
Суммарная мощность ахрефс 25 тфлопс по их заявлениям.
spamless вне форума  
Старый 07.04.2013, 20:18   #6
7make
Senior Member
 
Аватар для 7make
 
Регистрация: 02.07.2011
Сообщений: 746
Бабло: $196220
ТС -->
автор темы ТС По умолчанию

MapReduce самое то для таких задач?
В плане построения архитектуры.
На чем такое строят?
__________________
PharmCash - Лучшие условия и профит в фарме. Hold-0, Refunds-0, Commission–50%, CPU+500. Google нас любит! | Обучаю Монстр2 нужным вам каптчам

Последний раз редактировалось 7make; 07.04.2013 в 20:24.
7make вне форума  
Старый 07.04.2013, 20:39   #7
WebNinja
grablab.org
 
Аватар для WebNinja
 
Регистрация: 18.09.2007
Адрес: Thailand
Сообщений: 4,893
Бабло: $322264
Отправить сообщение для WebNinja с помощью ICQ Отправить сообщение для WebNinja с помощью Skype™
По умолчанию

Цитата:
Сообщение от sspy Посмотреть сообщение
попарсить это фигня, берешь серваки с анлим каналом и вперед. 25TB / средний вес страницы = количество страниц в месяц. самое главное правильная архитектура софта для анализа, там уже побольше мощностей надо.
ну конечно

Цитата:
Смыл амазон брать там цены за трафик пиздецкакие.
там можно выкупать споты вычислительные очень дешево + инстансы могут работать только тогда когда нужно а не круглые сутки.

25 270 000 000 например 1000 страниц в секунду, 7019 часов или 292 дня.
__________________
www.imscraping.ninja
grablab.org | blog
WebNinja вне форума  
Старый 07.04.2013, 21:24   #8
sspy
главный злодей гофака
 
Аватар для sspy
 
Регистрация: 18.06.2007
Сообщений: 5,760
Бабло: $953648
По умолчанию

Цитата:
Сообщение от WebNinja Посмотреть сообщение
ну конечно
еще один безаргументный и необоснованный критик моего экспертного опыта и светлого ума затмевающего солнце. лучше бы ты питонил себе там дальше и не лез в топик, где серъезные дяди общаются.

Цитата:
Сообщение от 7make Посмотреть сообщение
MapReduce самое то для таких задач?
В плане построения архитектуры.
На чем такое строят?
да, Hadoop и другие разработки Apache Foundation идеально для этого подойдут
__________________
sspy вне форума  
Старый 08.04.2013, 00:17   #9
Dadee
Шоколатье
 
Аватар для Dadee
 
Регистрация: 20.04.2007
Сообщений: 5,973
Бабло: $726105
По умолчанию

про ахрефс :
Цитата:
The service has grown up since that time: the first cluster of 6 handmade servers was replaced with mighty 25TFlops cluster in modern world-class datacentre.
Nowadays we crawl up to 6 billion pages a day. Hard to believe – it’s only three times less than Googlebot does!
всего на треть медленней гуглбота. начинали с кластера на 6 серваков.
Dadee вне форума  
Старый 08.04.2013, 00:50   #10
digg
$400
 
Аватар для digg
 
Регистрация: 17.05.2009
Сообщений: 13,952
Бабло: $1895770
Отправить сообщение для digg с помощью ICQ
По умолчанию

ну, а маркетинг
напарсить, потом то что? бабло надо же отбивать
digg на форуме