Форум успешных вебмастеров - GoFuckBiz.com

  Форум успешных вебмастеров - GoFuckBiz.com > Бизнес-решения > Скрипты, программы и технические решения
Дата
USD/RUB58.7820
BTC/USD0.0000
Скрипты, программы и технические решения Обсуждаем скрипты, программы и новые технологии.

Закрытая тема
Опции темы Опции просмотра
Старый 07.04.2013, 18:39   #1
7make
Senior Member
 
Аватар для 7make
 
Регистрация: 02.07.2011
Сообщений: 737
Бабло: $195160
По умолчанию Ресурсы для парсинга типа ahrefs

Кто может оценить какие ресурсы нужны для парсинга веба по типу ahrefs?
Сколько серваков /ТБ места/канал?

К примеру, в гугле по запросу site:com - примерно 25 270 000 000 документов
Сколько ресурсов и времени нужно пропарсить их?
__________________
PharmCash - Лучшие условия и профит в фарме. Hold-0, Refunds-0, Commission–50%, CPU+500. Google нас любит! | Обучаю Монстр2 нужным вам каптчам
7make вне форума  
Старый 07.04.2013, 18:52   #2
inkubus
Senior Member
 
Аватар для inkubus
 
Регистрация: 11.02.2010
Сообщений: 935
Бабло: $176795
По умолчанию

http://www.michaelnielsen.org/ddi/ho...s-in-40-hours/ для размышлений

Цитата:
I crawled 250,113,669 pages for just under 580 dollars in 39 hours and 25 minutes, using 20 Amazon EC2 machine instances.
inkubus вне форума  
Старый 07.04.2013, 19:00   #3
sspy
главный злодей гофака
 
Аватар для sspy
 
Регистрация: 18.06.2007
Сообщений: 5,305
Бабло: $879183
По умолчанию

Цитата:
Сообщение от 7make Посмотреть сообщение
Сколько ресурсов и времени нужно пропарсить их?
попарсить это фигня, берешь серваки с анлим каналом и вперед. 25TB / средний вес страницы = количество страниц в месяц. самое главное правильная архитектура софта для анализа, там уже побольше мощностей надо.
sspy вне форума  
Старый 07.04.2013, 19:06   #4
dady
Senior Medved
 
Аватар для dady
 
Регистрация: 15.06.2008
Сообщений: 4,140
Бабло: $22472170
По умолчанию

Цитата:
Сообщение от inkubus Посмотреть сообщение
Смыл амазон брать там цены за трафик пиздецкакие.
Тут пощитал если с одного сервака парсить в 1000 страниц в секунду, то на 292 дня , то есть чтоб за месяц напарсить всё , надо 10 серваков примерно.
dady на форуме  
Старый 07.04.2013, 19:10   #5
spamless
Senior Member
 
Регистрация: 16.07.2009
Сообщений: 939
Бабло: $152432
По умолчанию

Цитата:
Сообщение от sspy Посмотреть сообщение
попарсить это фигня, берешь серваки с анлим каналом и вперед. 25TB / средний вес страницы = количество страниц в месяц. самое главное правильная архитектура софта для анализа, там уже побольше мощностей надо.
Суммарная мощность ахрефс 25 тфлопс по их заявлениям.
spamless вне форума  
Старый 07.04.2013, 20:18   #6
7make
Senior Member
 
Аватар для 7make
 
Регистрация: 02.07.2011
Сообщений: 737
Бабло: $195160
ТС -->
автор темы ТС По умолчанию

MapReduce самое то для таких задач?
В плане построения архитектуры.
На чем такое строят?
__________________
PharmCash - Лучшие условия и профит в фарме. Hold-0, Refunds-0, Commission–50%, CPU+500. Google нас любит! | Обучаю Монстр2 нужным вам каптчам

Последний раз редактировалось 7make; 07.04.2013 в 20:24.
7make вне форума  
Старый 07.04.2013, 20:39   #7
WebNinja
grablab.org
 
Аватар для WebNinja
 
Регистрация: 18.09.2007
Адрес: Thailand
Сообщений: 4,903
Бабло: $322214
Отправить сообщение для WebNinja с помощью ICQ Отправить сообщение для WebNinja с помощью Skype™
По умолчанию

Цитата:
Сообщение от sspy Посмотреть сообщение
попарсить это фигня, берешь серваки с анлим каналом и вперед. 25TB / средний вес страницы = количество страниц в месяц. самое главное правильная архитектура софта для анализа, там уже побольше мощностей надо.
ну конечно

Цитата:
Смыл амазон брать там цены за трафик пиздецкакие.
там можно выкупать споты вычислительные очень дешево + инстансы могут работать только тогда когда нужно а не круглые сутки.

25 270 000 000 например 1000 страниц в секунду, 7019 часов или 292 дня.
WebNinja вне форума  
Старый 07.04.2013, 21:24   #8
sspy
главный злодей гофака
 
Аватар для sspy
 
Регистрация: 18.06.2007
Сообщений: 5,305
Бабло: $879183
По умолчанию

Цитата:
Сообщение от WebNinja Посмотреть сообщение
ну конечно
еще один безаргументный и необоснованный критик моего экспертного опыта и светлого ума затмевающего солнце. лучше бы ты питонил себе там дальше и не лез в топик, где серъезные дяди общаются.

Цитата:
Сообщение от 7make Посмотреть сообщение
MapReduce самое то для таких задач?
В плане построения архитектуры.
На чем такое строят?
да, Hadoop и другие разработки Apache Foundation идеально для этого подойдут
sspy вне форума  
Старый 08.04.2013, 00:17   #9
Dadee
Шоколатье
 
Аватар для Dadee
 
Регистрация: 20.04.2007
Сообщений: 5,954
Бабло: $715885
По умолчанию

про ахрефс :
Цитата:
The service has grown up since that time: the first cluster of 6 handmade servers was replaced with mighty 25TFlops cluster in modern world-class datacentre.
Nowadays we crawl up to 6 billion pages a day. Hard to believe – it’s only three times less than Googlebot does!
всего на треть медленней гуглбота. начинали с кластера на 6 серваков.
__________________
Зарабатывай с SearchAnyway. Отличные биды и уникальный фид
Dadee вне форума  
Старый 08.04.2013, 00:50   #10
digg
$400
 
Аватар для digg
 
Регистрация: 17.05.2009
Сообщений: 8,000
Бабло: $1215470
Отправить сообщение для digg с помощью ICQ
По умолчанию

ну, а маркетинг
напарсить, потом то что? бабло надо же отбивать
digg вне форума  
Закрытая тема



Опции темы
Опции просмотра