Как отчекать 100 млн. доменов на CMS? - Форум успешных вебмастеров - GoFuckBiz.com - Страница 3
 
 
Форум успешных вебмастеров - GoFuckBiz.com

  Форум успешных вебмастеров - GoFuckBiz.com > Бизнес-решения > Скрипты, программы и технические решения
Дата
USD/RUB90.2486
BTC/USD68907.0507
Скрипты, программы и технические решения Обсуждаем скрипты, программы и новые технологии.

Закрытая тема
Опции темы Опции просмотра
Старый 21.07.2015, 07:33
Start Post: Как отчекать 100 млн. доменов на CMS? 
  #21
the4gamblers
__٩(̾●̮̮̃̾•̃̾)۶__
 
Регистрация: 30.05.2010
Сообщений: 259
Бабло: $97241
Question

Сила гофака подскажи чем можно отчекать 100 милионов доменов на движки, форумы блоги и etc
aparser не предлогать всего 10 лямов только на wp блоги уже 3 день чекает, медленно в общем
the4gamblers вне форума  
Старый 21.07.2015, 15:55   #22
masolit
Senior Member
 
Регистрация: 18.08.2007
Сообщений: 1,098
Бабло: $199375
По умолчанию

Цитата:
Сообщение от Strikelol Посмотреть сообщение
И я как-то прозевал где тс хотел масштабировать.
а если придется ? странный подход к кодингу, типа напишу, а че потом с этим делать если придется чтото менять хз.

ладно не суть, я тоже не за питон, я например за go lang в данном случаи, питон был как пример.

Цитата:
Сообщение от Strikelol Посмотреть сообщение
Не знаю есть ли для си такие же готовые решения как для питона
вот с этого и надо было начинать, что не знаю но советую. сразу было сказанно что узкое место тут именно резолвинг днс и язык тут не причем.

Последний раз редактировалось masolit; 21.07.2015 в 16:02.
masolit вне форума  
Старый 21.07.2015, 16:14   #23
pepper
Senior Member
 
Регистрация: 04.06.2008
Сообщений: 466
Бабло: $172376
По умолчанию

В своем сервисе тоже проверял миллионы доменов (здесь о нем писал http://www.gofuckbiz.com/showthread.php?t=42189) и отказался от python'а в пользу golang. В треде писал причины.

Кстати, если будешь чекать без прокси, есть вероятность попасть на honeypot-домены, т.е. домены от бывших cc от б-нетов. При простом GET запросе к ним ip автоматом добавляется в блеклист.
pepper вне форума  
Старый 21.07.2015, 16:21   #24
lorien
Senior Member
 
Аватар для lorien
 
Регистрация: 18.05.2009
Сообщений: 928
Бабло: $196595
По умолчанию

Парни, расскажите, плиз, про грабли при резолвинге большого кол-ва доменных имён. Кто, как, кого и за что банит? И как обоходить эти ограничения.
__________________
TgScan - узнай Telegram группы, в которых состоит человек
lorien вне форума  
Старый 21.07.2015, 17:56   #25
Drow
Senior Member
 
Регистрация: 21.03.2008
Сообщений: 690
Бабло: $128400
По умолчанию

Парни вы бы хоть скооперировались что ли, а то бедные сервера держателей зон, охуивают от таких любителей чекить сразу и много.

Цитата:
И как обоходить эти ограничения.
Раньше помогало много-много дешевых ВПС в разных сетях, но сейчас я думаю все мониторят на предмет такой активности.
Drow вне форума  
Старый 21.07.2015, 19:06   #26
sspy
главный злодей гофака
 
Аватар для sspy
 
Регистрация: 18.06.2007
Сообщений: 5,760
Бабло: $953838
По умолчанию

Цитата:
Сообщение от Drow
Парни вы бы хоть скооперировались что ли, а то бедные сервера держателей зон, охуивают от таких любителей чекить сразу и много.
похуй на сервера, зря держатели зон свои 90% откатов за домены получают?
__________________
sspy вне форума  
Старый 21.07.2015, 20:28   #27
the4gamblers
__٩(̾●̮̮̃̾•̃̾)۶__
 
Регистрация: 30.05.2010
Сообщений: 259
Бабло: $97241
ТС -->
автор темы ТС По умолчанию

Цитата:
Сообщение от Drow Посмотреть сообщение
Парни вы бы хоть скооперировались что ли, а то бедные сервера держателей зон, охуивают от таких любителей чекить сразу и много.



Раньше помогало много-много дешевых ВПС в разных сетях, но сейчас я думаю все мониторят на предмет такой активности.
ну не такие уж они и бедные
Спасибо всем кто отписался, по факту получаеться нужно запускать апарсер и через месяц полтора получить результат по другому пока никак, а кодинг-хуединг на си не вариант ибо хрен найдеш кодера плюс как всегда вылезет куча косяков от рукожопства в итоге теже полтора два месяца коту под хвост
the4gamblers вне форума  
Старый 21.07.2015, 22:22   #29
chesser
автоматизирую интернеты
 
Аватар для chesser
 
Регистрация: 05.07.2009
Адрес: chesser.ru
Сообщений: 3,362
Бабло: $470735
По умолчанию

erlang + OTP - как вам?

Цитата:
Сообщение от Strikelol
я думаю что несмотря на всё, тс в обработке найденного врядли сможет обогнать даже апарсер. А сложность тут вообще не показатель. Что сишнику что питонщику такое написать одинаково просто. Схема работы программы будет такой же как и на питоне например, отличаясь только особенностями реализации на си и скоростью. Думаю что разница в скорости будет в сторону си, но врядли для тса она будет значительна. Поэтому фраза "блять какой си" точно так же уместна как и "блять какой питон".
если бы у задачи стояли разумные сроки....ну, например: за сутки получить результат, то задача свелась бы к организации кластера и распределенного сбора информации. Отсюда и требования к выбору технологического стека - легкость организации распределенного приложения.

А теперь вопрос: где легкость разработки распределенного софта и где Си ?
__________________
USA и NL серверы и VPS | wiki | блог | Drupal | NginxТДС
Ave, Google, morituri te salutant! © chesser
chesser вне форума  
Старый 21.07.2015, 22:45   #30
Strikelol
Senior Member
 
Регистрация: 31.03.2011
Сообщений: 3,360
Бабло: $669045
По умолчанию

Цитата:
Сообщение от chesser Посмотреть сообщение
А теперь вопрос: где легкость разработки распределенного софта и где Си ?
А кто хотел распределённый софт(с возможностью масштабирования)? Это профессиональная болезнь программеров. Есть точка зрения что иногда нужно делать не больше чем нужно, а не то что пригодится в будущем. К примеру если надо 100 строк обработать - не обязательно писать админку и рисовать дизайн для скрипта.
Strikelol вне форума  
Старый 21.07.2015, 23:01   #31
chesser
автоматизирую интернеты
 
Аватар для chesser
 
Регистрация: 05.07.2009
Адрес: chesser.ru
Сообщений: 3,362
Бабло: $470735
По умолчанию

Цитата:
Сообщение от Strikelol
А кто хотел распределённый софт(с возможностью масштабирования)?
про возможность масштабирования я не говорил, хотя распределенный софт часто ее умеет из коробки, что порой приятно.

Цитата:
Сообщение от Strikelol
Это профессиональная болезнь программеров.
никогда особо не любил кодить ради кодинга, да и вообще - смотри вторую строку моей подписи

Цитата:
Сообщение от Strikelol
Есть точка зрения что иногда нужно делать не больше чем нужно, а не то что пригодится в будущем.
да, есть адекватное на мой взгляд требование, пусть и не озвученное тут вслух: софт должен собрать данные за приемлемые сроки. Сидеть и смотреть на работу софта 2 МЕСЯЦА считаю неприемлемым. Еще нужно учесть тот факт, что к концу работы этого софта часть данных уже потеряет свою актуальность.

Цитата:
Сообщение от Strikelol
К примеру если надо 100 строк обработать - не обязательно писать админку и рисовать дизайн для скрипта.
и это говорит человек, который предложил это вместо набора 15 символов в командной строке
__________________
USA и NL серверы и VPS | wiki | блог | Drupal | NginxТДС
Ave, Google, morituri te salutant! © chesser
chesser вне форума