как проверить на валидность большую пачку доменов? - Форум успешных вебмастеров - GoFuckBiz.com - Страница 3
 
 
Форум успешных вебмастеров - GoFuckBiz.com

  Форум успешных вебмастеров - GoFuckBiz.com > Бизнес-решения > Скрипты, программы и технические решения
Дата
USD/RUB90.2486
BTC/USD68525.6518
Скрипты, программы и технические решения Обсуждаем скрипты, программы и новые технологии.

Закрытая тема
Опции темы Опции просмотра
Старый 31.05.2008, 20:29
Start Post: как проверить на валидность большую пачку доменов? 
  #21
solar
Senior Member
 
Регистрация: 04.04.2007
Сообщений: 601
Бабло: $7700
По умолчанию

привет
есть список из нескольких миллионов доменов.
надо найти все домены, которые уже не существуют (expired,not found).

есть как минимум две проблемы:
1) хуиз сервера банят , особенно быстро банит .org и .jp
может быть есть альтернативные хуизы?

2) разные сервера отвечают в разном формате, парсить сложно.

буду благодарен за советы
ps сейчас использую модуль
Код:
Net::Domain::ExpireDate
на перле.
solar вне форума  
Старый 20.08.2008, 13:05   #22
solar
Senior Member
 
Регистрация: 04.04.2007
Сообщений: 601
Бабло: $7700
ТС -->
автор темы ТС По умолчанию

reality,
есть маленькая трабла в асю тебе написал

Код:
loaded so far 1089000 domains
Exception in thread "main" java.lang.OutOfMemoryError: Java heap space
	at java.util.AbstractList.subList(AbstractList.java:570)
	at java.util.regex.Pattern.split(Pattern.java:1018)
	at java.lang.String.split(String.java:2103)
	at java.lang.String.split(String.java:2145)
	at gofuckbiz.DnsChecker.startup(DnsChecker.java:99)
	at gofuckbiz.DnsChecker.main(DnsChecker.java:200)
solar вне форума  
Старый 20.08.2008, 15:56   #23
reality
Senior Member
 
Регистрация: 07.04.2007
Сообщений: 171
Бабло: $8600
Отправить сообщение для reality с помощью ICQ
По умолчанию

ну да... забыл добавить, что все домены грузятся в память в начале работы щас попробую переделать

Upd: Вроде должно работать верно, даже по скорости быстрее чем первая версия но все равно миллион доменов будет проверяться очень приличное время, когда надоесть надо жать Enter иначе могут потеряться некоторые результаты. После этого вылетит куча ошибок, но это так и задумано

Цитата:
Сообщение от solar Посмотреть сообщение
reality,
есть маленькая трабла в асю тебе написал

Код:
loaded So Far 1089000 Domains
Exception In Thread "main" Java.lang.outofmemoryerror: Java Heap Space
	At Java.util.abstractlist.sublist(abstractlist.java:570)
	At Java.util.regex.pattern.split(pattern.java:1018)
	At Java.lang.string.split(string.java:2103)
	At Java.lang.string.split(string.java:2145)
	At Gofuckbiz.dnschecker.startup(dnschecker.java:99)
	At Gofuckbiz.dnschecker.main(dnschecker.java:200)
Вложения
Тип файла: zip DnsChecker.zip (268.5 Кб, 3 просмотров)
Тип файла: zip DnsCheckerSrc.zip (169.9 Кб, 4 просмотров)

Последний раз редактировалось reality; 20.08.2008 в 16:53.
reality вне форума  
Старый 20.08.2008, 17:08   #24
solar
Senior Member
 
Регистрация: 04.04.2007
Сообщений: 601
Бабло: $7700
ТС -->
автор темы ТС По умолчанию

Цитата:
Сообщение от reality Посмотреть сообщение
ну да... забыл добавить, что все домены грузятся в память в начале работы щас попробую переделать

Upd: Вроде должно работать верно, даже по скорости быстрее чем первая версия но все равно миллион доменов будет проверяться очень приличное время, когда надоесть надо жать Enter иначе могут потеряться некоторые результаты. После этого вылетит куча ошибок, но это так и задумано
та не, я сам пишу на яве, уже сделал небольшой фикс для зон, запустил в 300 потоков, все в общем работает но в итоге опять свалилось с этим эксепшеном. При этом процесс память не ест сильно, все в пределах нормы.

у меня есть на питоне скриптец, который подобным занимается, но он просто домены ресолвит. в 300 потоков работает нормально, надо его попробовать переделать для ресолвинга НС и тогда сравнить что будет стабильнее работать..

Кстати, я советую ставить свой локальный named чтобы запросы к нему шли все, а не к провайдерскому.

ps а все не отвечаешь
solar вне форума  
Старый 20.08.2008, 17:17   #25
reality
Senior Member
 
Регистрация: 07.04.2007
Сообщений: 171
Бабло: $8600
Отправить сообщение для reality с помощью ICQ
По умолчанию

аську ихз профиля у меня давно сперли вот новая 497202306
reality вне форума  
Старый 20.08.2008, 17:22   #26
reality
Senior Member
 
Регистрация: 07.04.2007
Сообщений: 171
Бабло: $8600
Отправить сообщение для reality с помощью ICQ
По умолчанию

судя по стектрейсу оно валится при загрузке доменов в память, почему фиг его знает, но в последней версии прога читает из файла по мере необходимости, так что все должно быть нормально

+ в первой версии из за синхронизации кучя локов ненужных возникает, в новой вроде поправлено, должно шустврее работать.

просто у меня есть ощущения, что на большом количестве потоков, внутри само либы org.xbill.dns возникают какие то косяки, и на заведомо рабочих доменах ошибки с NS вылезают
reality вне форума  
Старый 20.08.2008, 17:38   #27
solar
Senior Member
 
Регистрация: 04.04.2007
Сообщений: 601
Бабло: $7700
ТС -->
автор темы ТС По умолчанию

вроде бы жжот, 300 потоков, вот скрин


зы
вот патерн для проверки тлд:
Код:
	private Pattern retld = Pattern.compile(".*(\\.or\\.jp|\\.ac\\.cr|\\.ac\\.cy|\\.ac\\.fj|\\.ac\\.gg|\\.ac\\.im|\\.ac\\.je|\\.ac\\.pa|\\.ac\\.ug|\\.ac\\.yu|\\.ad\\.jp|\\.alderney\\.gg|\\.art\\.do|\\.arts\\.co|\\.arts\\.ve|\\.asn\\.lv|\\.bib\\.ve|\\.co\\.ck|\\.co\\.cr|\\.co\\.gg|\\.co\\.hu|\\.co\\.im|\\.co\\.je|\\.co\\.sv|\\.co\\.ug|\\.co\\.ve|\\.co\\.vi|\\.co\\.yu|\\.com\\.ac|\\.com\\.ae|\\.com\\.ar|\\.com\\.az|\\.com\\.bb|\\.com\\.bm|\\.com\\.bs|\\.com\\.co|\\.com\\.cu|\\.com\\.cy|\\.com\\.do|\\.com\\.eg|\\.com\\.fj|\\.com\\.ge|\\.com\\.gu|\\.com\\.jo|\\.com\\.kh|\\.com\\.la|\\.com\\.lb|\\.com\\.lc|\\.com\\.lv|\\.com\\.ly|\\.com\\.mo|\\.com\\.mt|\\.com\\.my|\\.com\\.na|\\.com\\.nc|\\.com\\.ni|\\.com\\.np|\\.com\\.pa|\\.com\\.pe|\\.com\\.ph|\\.com\\.py|\\.com\\.sh|\\.com\\.sy|\\.com\\.tn|\\.com\\.ua|\\.com\\.uy|\\.com\\.ve|\\.conf\\.au|\\.conf\\.lv|\\.cri\\.nz|\\.csiro\\.au|\\.ed\\.cr|\\.edu\\.ac|\\.edu\\.bm|\\.edu\\.co|\\.edu\\.do|\\.edu\\.ec|\\.edu\\.eg|\\.edu\\.ge|\\.edu\\.gu|\\.edu\\.jo|\\.edu\\.lc|\\.edu\\.lv|\\.edu\\.mo|\\.edu\\.my|\\.edu\\.pa|\\.edu\\.py|\\.edu\\.sg|\\.edu\\.sh|\\.edu\\.tw|\\.edu\\.uy|\\.edu\\.ve|\\.edu\\.yu|\\.edunet\\.tn|\\.ens\\.tn)");
Изображения
Тип файла: jpg Picture 1.jpg (12.8 Кб, 31 просмотров)
solar вне форума