|
| Дата |
|
USD/RUB | 90.1887 | BTC/USD | 67178.1194 |
|
|
|
Скрипты, программы и технические решения Обсуждаем скрипты, программы и новые технологии. |
13.02.2013, 12:20
|
Start Post: 200 OK чекер
|
Senior
Регистрация: 24.09.2008
Сообщений: 2,717
Бабло: $519695
|
Был какой-то софт под win или подскажите многопоточное решение?
Хрумер хорошо, пол базы уже чекает, но ещё 5 лямов другая, не хочется сутки на это тратить.
Спасибо
|
|
|
13.02.2013, 20:05
|
#12
|
Senior Member
Регистрация: 17.02.2011
Сообщений: 153
Бабло: $26940
|
Цитата:
Сообщение от iloveadult
mlu, чекпарамс это хорошо, щас буду искать модуль, скорость у вас огонь была)
|
Не надо искать, вот он 8) http://www.gofuckbiz.com/showpost.ph...37&postcount=8
Если надо не код ошибки, а именно наличие/отсутствие 200 - можно переделать, там быстро и просто
|
|
|
13.02.2013, 20:16
|
#13
|
Senior
Регистрация: 24.09.2008
Сообщений: 2,717
Бабло: $519695
ТС -->
|
ТС
mlu, спасибо
|
|
|
14.02.2013, 02:15
|
#14
|
Senior Member
Регистрация: 01.07.2007
Сообщений: 1,005
Бабло: $142100
|
Цитата:
я поставил поиск "200 OK" в заголовках, Потом проверял руками те, что он отсеил - куча рабочих хостов.
|
Потому что надо сначала немножко разобраться, какие ответы сервера вообще бывают.
Вот например, иногда когда заходим на "host.com" - нас перекидывает на "www.host.com". То есть, мы получили ответ "403 Found" (или 302, или 303 и т.п.).
Не было там "200 OK"? Не было, естессно он отсеется!
Рабочий сайт? Рабочий. Но ушёл в мусор, т.к. мы не указали какие ещё ответы сервера нас устраивают (причем, наличие "403 Found" ещё НЕ значит что сайт рабочий - может нас на хостера перекинет).
Теперь прикиньте, сколько вы рабочих, нормальных сайтов выкидываете из базы чеком на "200 OK".
Последний раз редактировалось Botmaster; 14.02.2013 в 02:21.
|
|
|
14.02.2013, 02:20
|
#15
|
Ебланнед
Регистрация: 12.02.2013
Сообщений: 80
Бабло: $40695
|
Цитата:
Сообщение от Botmaster
Потому что надо сначала немножко разобраться, какие ответы сервера вообще бывают.
Вот например, иногда когда заходим на "host.com" - нас перекидывает на "www.host.com". То есть, мы получили ответ "403 Found".
Не было там "200 OK"? Не было, естессно он отсеется!
Рабочий сайт? Рабочий. Но ушёл в мусор, т.к. мы не указали какие ещё ответы сервера нас устраивают (причем, наличие "403 Found" ещё НЕ значит что сайт рабочий - может нас на хостера перекинет).
Теперь прикиньте, сколько вы рабочих, нормальных сайтов выкидываете из базы чеком на "200 OK".
|
302 и 301
4xx это errors
3xx - redirects
|
|
|
14.02.2013, 02:22
|
#16
|
Senior Member
Регистрация: 01.07.2007
Сообщений: 1,005
Бабло: $142100
|
Да, я там уже добавил. 4xx тоже бывает на вполне рабочих сайтах.
|
|
|
14.02.2013, 02:22
|
#17
|
Senior
Регистрация: 24.09.2008
Сообщений: 2,717
Бабло: $519695
ТС -->
|
ТС
Botmaster, так может подскажешь, как сделать проверку максимально эффективной? спасибо
|
|
|
14.02.2013, 02:35
|
#18
|
Senior Member
Регистрация: 01.07.2007
Сообщений: 1,005
Бабло: $142100
|
Цитата:
Сообщение от iloveadult
Botmaster, так может подскажешь, как сделать проверку максимально эффективной? спасибо
|
Вопрос в том, для чего именно эта проверка.
Если нужно проверять на годность для постинга - то проверять надо самим постингом. Мертвые линки при постинге все равно практически сразу пропускаются.
Т.е., грубо говоря, время "чистка базы, потом постинг" по длительности выходит таким же, как время "постинг по неочищенной базе". Причем во 2м варианте и охват норм ресурсов будет выше.
|
|
|
14.02.2013, 02:45
|
#19
|
Senior Member
Регистрация: 17.02.2011
Сообщений: 153
Бабло: $26940
|
Цитата:
Сообщение от Botmaster
Теперь прикиньте, сколько вы рабочих, нормальных сайтов выкидываете из базы чеком на "200 OK".
|
Более того, при многопоточной проверке есть вариант поймать рейт-лимиты, 503 и прочие радости в виде доса/ддоса, когда несколько потоков обращаются к разным доменам/ссылкам, находящимся на одном сервере/сервисе.
|
|
|
14.02.2013, 15:53
|
#20
|
Senior
Регистрация: 24.09.2008
Сообщений: 2,717
Бабло: $519695
ТС -->
|
ТС
Ну вот не чекая - хз хз. База конечно жесткий микс, но все-равно адская стата имхо:
форумов около 20-25%, остальное блоги и гесты. без прокси (ip ещё чистый), ползунок на макс пробив, не стоит ни одной галочки в доп.настройках из трех где только рега, от ранее и обязательно. И это ещё без чека на актив линк) версия лейтест
|
|
|
14.02.2013, 16:56
|
#21
|
Senior Member
Регистрация: 01.07.2007
Сообщений: 1,005
Бабло: $142100
|
Да, стата адская. И на кой лад такая база нужна?
Берём базу All_Profiles_12_2012.txt из комплекта последней версии, заряжаем на рассылку - пройдена будет за сутки - и наблюдаем десятки тысяч успешно зареганных профилей ( тут уже подтвердили). Далее, через 1-2 недели можно пройти от ранее зареганного.
--
На этот месяц также подготавливаем обновление высоко-пробиваемых баз, их объём может увеличиться примерно в 1,5 раза.
P.S. Судя по стате, т.к. отчёт "Где требуется активация", почти в 10 раз превосходит число из "Профили", это говорит о том - что скорее всего еще на начальном этапе почтовый ящик благополучно заблокировался и письма активации программа получить не могла.
Это связано с закручиванием гаек на GMail в последнее время (если Вы пользовались этим ящиком). Сейчас, в подготавливаемом апдейте, мы сделали поддержку Hotmail (работа с ним по pop-протоколу), с ним таких проблем не возникает. Также планируется сделать авторегу на этом ящике.
P.S. Судя по стате, т.к. отчёт "Где требуется активация", почти в 10 раз превосходит число из "Профили", это говорит о том - что скорее всего еще на начальном этапе почтовый ящик благополучно заблокировался и письма активации программа получить не могла.
Это связано с закручиванием гаек на GMail в последнее время (если Вы пользовались этим ящиком). Сейчас, в подготавливаемом апдейте, мы сделали поддержку Hotmail (работа с ним по pop-протоколу), с ним таких проблем не возникает. Также планируется сделать авторегу на этом ящике.
|
|
|
|