Как отчекать 100 млн. доменов на CMS? - Форум успешных вебмастеров - GoFuckBiz.com - Страница 2
 
 
Форум успешных вебмастеров - GoFuckBiz.com

  Форум успешных вебмастеров - GoFuckBiz.com > Бизнес-решения > Скрипты, программы и технические решения
Дата
USD/RUB90.2486
BTC/USD68835.2627
Скрипты, программы и технические решения Обсуждаем скрипты, программы и новые технологии.

Закрытая тема
Опции темы Опции просмотра
Старый 21.07.2015, 07:33
Start Post: Как отчекать 100 млн. доменов на CMS? 
  #11
the4gamblers
__٩(̾●̮̮̃̾•̃̾)۶__
 
Регистрация: 30.05.2010
Сообщений: 259
Бабло: $97241
Question

Сила гофака подскажи чем можно отчекать 100 милионов доменов на движки, форумы блоги и etc
aparser не предлогать всего 10 лямов только на wp блоги уже 3 день чекает, медленно в общем
the4gamblers вне форума  
Старый 21.07.2015, 13:20   #12
Strikelol
Senior Member
 
Регистрация: 31.03.2011
Сообщений: 3,360
Бабло: $669045
По умолчанию

Цитата:
Сообщение от masolit Посмотреть сообщение
какой скрипт на си бля )) тут дело не в языке
если не в языке то откуда возражение по си? он чё лицом не вышел? или медленней поиск по строкам делает, между объектами стака перемещается, мусор собирает?
Strikelol вне форума  
Старый 21.07.2015, 13:22   #13
gosu
Senior Member
 
Регистрация: 18.08.2009
Сообщений: 253
Бабло: $46111
По умолчанию

Цитата:
Сообщение от directed Посмотреть сообщение
Это преступление? Собирается публичная информация из открытых источников. Пусть в гугл абузу напишет
да там вообще похуй.
В целом в сутки при чеке прилетает около 5-25 писем.
Где-то модсекъюрити настроен в параноикмод где-то ещё что-то.
Вникать во всё при задаче быстро спарсить большое кол-во ресурсов нет.
Но мне пришлось сменить около 5 локаций, за время парсинга.
gosu вне форума  
Старый 21.07.2015, 14:13   #14
masolit
Senior Member
 
Регистрация: 18.08.2007
Сообщений: 1,098
Бабло: $199375
По умолчанию

Цитата:
Сообщение от Strikelol Посмотреть сообщение
если не в языке то откуда возражение по си? он чё лицом не вышел? или медленней поиск по строкам делает, между объектами стака перемещается, мусор собирает?
ты действительно думаешь, что узкое место это поиск в стоке ? или ты думаешь что на СИ легко реализовать асихнронные запросы ? и при чем тут GC ? или ты из тех кто всегда прав ?

Цитата:
Сообщение от gosu Посмотреть сообщение
да там вообще похуй.
В целом в сутки при чеке прилетает около 5-25 писем.
Где-то модсекъюрити настроен в параноикмод где-то ещё что-то.
Вникать во всё при задаче быстро спарсить большое кол-во ресурсов нет.
Но мне пришлось сменить около 5 локаций, за время парсинга.
не совсем понятно если ты делаешь тупо запрос как юзер то почему должны идти абузы? если конечно у тебя в запросах типа чтото w00tw00t\. тогда да пиздос ))

Последний раз редактировалось masolit; 21.07.2015 в 14:20.
masolit вне форума  
Старый 21.07.2015, 14:24   #15
Strikelol
Senior Member
 
Регистрация: 31.03.2011
Сообщений: 3,360
Бабло: $669045
По умолчанию

Цитата:
Сообщение от masolit Посмотреть сообщение
ты действительно думаешь, что узкое место это поиск в стоке ? или ты думаешь что на СИ легко реализовать асихнронные запросы ?
я думаю что несмотря на всё, тс в обработке найденного врядли сможет обогнать даже апарсер. А сложность тут вообще не показатель. Что сишнику что питонщику такое написать одинаково просто. Схема работы программы будет такой же как и на питоне например, отличаясь только особенностями реализации на си и скоростью. Думаю что разница в скорости будет в сторону си, но врядли для тса она будет значительна. Поэтому фраза "блять какой си" точно так же уместна как и "блять какой питон".
Strikelol вне форума  
Старый 21.07.2015, 14:25   #16
digg
$400
 
Аватар для digg
 
Регистрация: 17.05.2009
Сообщений: 14,034
Бабло: $1904250
Отправить сообщение для digg с помощью ICQ
По умолчанию

все проще
читается только файл роботс, там достаточно инфы, чтоб идентифицировать двиг
типа
Цитата:
Disallow: /wp-admin/
роботс открыт у всех, за это абуз быть не может

могу накатать скрипт, который будет ебашить многопоточно - хватило бы у вас канала
digg вне форума  
Старый 21.07.2015, 14:28   #17
Strikelol
Senior Member
 
Регистрация: 31.03.2011
Сообщений: 3,360
Бабло: $669045
По умолчанию

Цитата:
Сообщение от digg Посмотреть сообщение
все проще
читается только файл роботс, там достаточно инфы, чтоб идентифицировать двиг


Цитата:
Сообщение от digg Посмотреть сообщение
могу накатать скрипт, который будет ебашить многопоточно - хватило бы у вас канала
прально, маникюр можно делать и электролобзиком
Strikelol вне форума  
Старый 21.07.2015, 14:59   #18
masolit
Senior Member
 
Регистрация: 18.08.2007
Сообщений: 1,098
Бабло: $199375
По умолчанию

Цитата:
Сообщение от Strikelol Посмотреть сообщение
А сложность тут вообще не показатель. Что сишнику что питонщику такое написать одинаково просто..
ты явно не понимаешь сложности написания подобного на C и простоты на python.

про обработку строк вообще сильно ) на хоть сюда посмотри
http://stackoverflow.com/questions/1...ng-two-strings


проблемма скорости не в парсинге еще раз говорю, а резолвинге днс и тут уже похер C это python либо что то другое, по этому писать подобно на C это: глупо, долго, сложно, бессмысленно, надо просто брать несколько серваков и писать под это дело просто app хоть на томже python или на Go lang, и юзать CoreOS

Последний раз редактировалось masolit; 21.07.2015 в 15:06.
masolit вне форума  
Старый 21.07.2015, 15:17   #19
Strikelol
Senior Member
 
Регистрация: 31.03.2011
Сообщений: 3,360
Бабло: $669045
По умолчанию

Странная у тебя форма дискуссии, брать какие-то притянутые за уши частности, которые в этом задании будут занимать одну сотую времени, и по ним приводить примеры. Если в одном конкретном случае питон строки объединяет быстрей, то значит он во всём быстрей, да? По-моему ты и сам знаешь что на самом деле будет быстрей работать. Да какая там сложность написания я не понимаю? У любого кто подобное писал на си всё кроме признаков движков есть.

Вообще не ясно причем там конкатенация строк если скорей всего в программе нужно будет в объект складывать их, причём программист полюбому знает в который из них складывается быстрей всего.

Цитата:
писать подобно на C это: глупо, долго, сложно, бессмысленно
ну вот такие аргументы они уместней, хотя на самом деле не долго, не сложно, не глупо и не бессмысленно. Разве что не оптимально. Но кого это волнует когда можно всякого напридумывать, да?
Strikelol вне форума  
Старый 21.07.2015, 15:26   #20
masolit
Senior Member
 
Регистрация: 18.08.2007
Сообщений: 1,098
Бабло: $199375
По умолчанию

Цитата:
Сообщение от Strikelol Посмотреть сообщение
Странная у тебя форма дискуссии, брать какие-то притянутые за уши частности, которые в этом задании будут занимать одну сотую времени, и по ним приводить примеры. Если в одном конкретном случае питон строки объединяет быстрей, то значит он во всём быстрей, да? По-моему ты и сам знаешь что на самом деле будет быстрей работать. Да какая там сложность написания я не понимаю? У любого кто подобное писал на си всё кроме признаков движков есть.

Вообще не ясно причем там конкатенация строк если скорей всего в программе нужно будет в объект складывать их, причём программист полюбому знает в который из них складывается быстрей всего.


ну вот такие аргументы они уместней, хотя на самом деле не долго, не сложно, не глупо и не бессмысленно. Разве что не оптимально. Но кого это волнует когда можно всякого напридумывать, да?
пример показан что не всегда C быстрей ) да можно конечно написать свой curl, но как по мне это тупо, и да может на асм писать сразу скорость будет ууух какая или не ? я про то что глупо советовать человеку увеличить скорость парсинга переписав все на C, это как в лужу пернуть в данном случаи, парсить строки что С что python будуы очень быстро, а вот скорость разработки, поддержки и маштабируемость это уже вопрост, как ты такое будешь на C поддерживать ) и не говори что ухх как легко )) иначе мы бы до сих пор все писали только на C.

Последний раз редактировалось masolit; 21.07.2015 в 15:32.
masolit вне форума  
Старый 21.07.2015, 15:45   #21
Strikelol
Senior Member
 
Регистрация: 31.03.2011
Сообщений: 3,360
Бабло: $669045
По умолчанию

Цитата:
Сообщение от masolit Посмотреть сообщение
пример показан что не всегда C быстрей ) да можно конечно написать свой curl, но как по мне это тупо, и да может на асм писать сразу скорость будет ууух какая или не ?
я не против питона, чего ты кипятишься ? ) Пусть будет твой любимый питон. Я же писал "си или мож что-то найдешь быстрей". Вот я ты говоришь что питон лушче - норм.
Цитата:
Сообщение от masolit Посмотреть сообщение
я про то что глупо советовать человеку увеличить скорость парсинга переписав все на C, это как в лужу пернуть в данном случаи
А что переписать? Он упомянул апарсер, я не советовал ему переписывать апарсер
Цитата:
Сообщение от masolit Посмотреть сообщение
парсить строки что С что python будуы очень быстро, а вот скорость разработки, поддержки и маштабируемость это уже вопрост, как ты такое будешь на C поддерживать ) и не говори что ухх как легко )) иначе мы бы до сих пор все писали только на C.
Не знаю есть ли для си такие же готовые решения как для питона, но для какого-то из не интерпретируемых точно есть хорошие либы. И я как-то прозевал где тс хотел масштабировать.
Strikelol вне форума