Нет. Я хочу сказать, что смысл советовать широкий канал есть только в том случае, если:
1) человек может освоить канал т.е. написать софт, который сможет забить этот канал.
2) человеку действительно это нужно (нужно скачать большой объём информации за коротки промежуток времени).
Если разбить 500к документов равномерно по секундам в сутках, то хватит 0.69мбит канала. Если мы хотим скачать в 10 раз быстрее т.е. за 2.5 часа, то хватит 6.9мбит канала. Нафига нужен 100мбит и тем более гигабит канал, я не очень понимаю
Ну вот простая аналогия. У нас есть чайник, мы льём воду в канистру, у которой горлышко диаметром 10 сантиметров. Чайник выливается за 15 секунд. Ок, теперь мы идём к колодцу и льём воду туда, диаметр колодца 1 метр, вода выльется за те же 15 секунд.
> и анлим траф
500к документов весят 7.5гб, если качать каждый день 7.5гб, то за месяц это будет 225гб.
Анлим траф не нужен, нужно всего лишь четверть терабайта. Столько дают даже на самых паршивых VPS.
Если скрипт сделан не через жопу, то процессор не нужен, чтобы просто скачивать документы. Процессор нужен для обработки HTML (построить DOM).
Короче, если бы у меня стояла задача скачивать 500кб документов в сутки, я бы просто взял обыкновенную digitalocean vps за $5/month
Правда, если нужно HTML парсить, то уже может быть затык в разборке HTML, по моим тестам на одном ядре где-то 50-100 документов в секунду разбирается т.е. нужно 2.7 часа, чтобы разобрать 500к документов, если 50 документов в секунду.
Ну. короче, VPS за пять баков должно хватить