|
| Дата |
|
USD/RUB | 90.2486 | BTC/USD | 68835.2627 |
|
|
|
Скрипты, программы и технические решения Обсуждаем скрипты, программы и новые технологии. |
21.07.2015, 07:33
|
Start Post: Как отчекать 100 млн. доменов на CMS?
|
__٩(̾●̮̮̃̾•̃̾)۶__
Регистрация: 30.05.2010
Сообщений: 259
Бабло: $97241
|
Сила гофака подскажи чем можно отчекать 100 милионов доменов на движки, форумы блоги и etc
aparser не предлогать всего 10 лямов только на wp блоги уже 3 день чекает, медленно в общем
|
|
|
21.07.2015, 13:20
|
#12
|
Senior Member
Регистрация: 31.03.2011
Сообщений: 3,360
Бабло: $669045
|
Цитата:
Сообщение от masolit
какой скрипт на си бля )) тут дело не в языке
|
если не в языке то откуда возражение по си? он чё лицом не вышел? или медленней поиск по строкам делает, между объектами стака перемещается, мусор собирает?
|
|
|
21.07.2015, 13:22
|
#13
|
Senior Member
Регистрация: 18.08.2009
Сообщений: 253
Бабло: $46111
|
Цитата:
Сообщение от directed
Это преступление? Собирается публичная информация из открытых источников. Пусть в гугл абузу напишет
|
да там вообще похуй.
В целом в сутки при чеке прилетает около 5-25 писем.
Где-то модсекъюрити настроен в параноикмод где-то ещё что-то.
Вникать во всё при задаче быстро спарсить большое кол-во ресурсов нет.
Но мне пришлось сменить около 5 локаций, за время парсинга.
|
|
|
21.07.2015, 14:13
|
#14
|
Senior Member
Регистрация: 18.08.2007
Сообщений: 1,098
Бабло: $199375
|
Цитата:
Сообщение от Strikelol
если не в языке то откуда возражение по си? он чё лицом не вышел? или медленней поиск по строкам делает, между объектами стака перемещается, мусор собирает?
|
ты действительно думаешь, что узкое место это поиск в стоке ? или ты думаешь что на СИ легко реализовать асихнронные запросы ? и при чем тут GC ? или ты из тех кто всегда прав ?
Цитата:
Сообщение от gosu
да там вообще похуй.
В целом в сутки при чеке прилетает около 5-25 писем.
Где-то модсекъюрити настроен в параноикмод где-то ещё что-то.
Вникать во всё при задаче быстро спарсить большое кол-во ресурсов нет.
Но мне пришлось сменить около 5 локаций, за время парсинга.
|
не совсем понятно если ты делаешь тупо запрос как юзер то почему должны идти абузы? если конечно у тебя в запросах типа чтото w00tw00t\. тогда да пиздос ))
Последний раз редактировалось masolit; 21.07.2015 в 14:20.
|
|
|
21.07.2015, 14:24
|
#15
|
Senior Member
Регистрация: 31.03.2011
Сообщений: 3,360
Бабло: $669045
|
Цитата:
Сообщение от masolit
ты действительно думаешь, что узкое место это поиск в стоке ? или ты думаешь что на СИ легко реализовать асихнронные запросы ?
|
я думаю что несмотря на всё, тс в обработке найденного врядли сможет обогнать даже апарсер. А сложность тут вообще не показатель. Что сишнику что питонщику такое написать одинаково просто. Схема работы программы будет такой же как и на питоне например, отличаясь только особенностями реализации на си и скоростью. Думаю что разница в скорости будет в сторону си, но врядли для тса она будет значительна. Поэтому фраза "блять какой си" точно так же уместна как и "блять какой питон".
|
|
|
21.07.2015, 14:25
|
#16
|
$400
Регистрация: 17.05.2009
Сообщений: 14,034
Бабло: $1904250
|
все проще
читается только файл роботс, там достаточно инфы, чтоб идентифицировать двиг
типа
роботс открыт у всех, за это абуз быть не может
могу накатать скрипт, который будет ебашить многопоточно - хватило бы у вас канала
|
|
|
21.07.2015, 14:28
|
#17
|
Senior Member
Регистрация: 31.03.2011
Сообщений: 3,360
Бабло: $669045
|
Цитата:
Сообщение от digg
все проще
читается только файл роботс, там достаточно инфы, чтоб идентифицировать двиг
|
Цитата:
Сообщение от digg
могу накатать скрипт, который будет ебашить многопоточно - хватило бы у вас канала
|
прально, маникюр можно делать и электролобзиком
|
|
|
21.07.2015, 14:59
|
#18
|
Senior Member
Регистрация: 18.08.2007
Сообщений: 1,098
Бабло: $199375
|
Цитата:
Сообщение от Strikelol
А сложность тут вообще не показатель. Что сишнику что питонщику такое написать одинаково просто..
|
ты явно не понимаешь сложности написания подобного на C и простоты на python.
про обработку строк вообще сильно ) на хоть сюда посмотри
http://stackoverflow.com/questions/1...ng-two-strings
проблемма скорости не в парсинге еще раз говорю, а резолвинге днс и тут уже похер C это python либо что то другое, по этому писать подобно на C это: глупо, долго, сложно, бессмысленно, надо просто брать несколько серваков и писать под это дело просто app хоть на томже python или на Go lang, и юзать CoreOS
Последний раз редактировалось masolit; 21.07.2015 в 15:06.
|
|
|
21.07.2015, 15:17
|
#19
|
Senior Member
Регистрация: 31.03.2011
Сообщений: 3,360
Бабло: $669045
|
Странная у тебя форма дискуссии, брать какие-то притянутые за уши частности, которые в этом задании будут занимать одну сотую времени, и по ним приводить примеры. Если в одном конкретном случае питон строки объединяет быстрей, то значит он во всём быстрей, да? По-моему ты и сам знаешь что на самом деле будет быстрей работать. Да какая там сложность написания я не понимаю? У любого кто подобное писал на си всё кроме признаков движков есть.
Вообще не ясно причем там конкатенация строк если скорей всего в программе нужно будет в объект складывать их, причём программист полюбому знает в который из них складывается быстрей всего.
Цитата:
писать подобно на C это: глупо, долго, сложно, бессмысленно
|
ну вот такие аргументы они уместней, хотя на самом деле не долго, не сложно, не глупо и не бессмысленно. Разве что не оптимально. Но кого это волнует когда можно всякого напридумывать, да?
|
|
|
21.07.2015, 15:26
|
#20
|
Senior Member
Регистрация: 18.08.2007
Сообщений: 1,098
Бабло: $199375
|
Цитата:
Сообщение от Strikelol
Странная у тебя форма дискуссии, брать какие-то притянутые за уши частности, которые в этом задании будут занимать одну сотую времени, и по ним приводить примеры. Если в одном конкретном случае питон строки объединяет быстрей, то значит он во всём быстрей, да? По-моему ты и сам знаешь что на самом деле будет быстрей работать. Да какая там сложность написания я не понимаю? У любого кто подобное писал на си всё кроме признаков движков есть.
Вообще не ясно причем там конкатенация строк если скорей всего в программе нужно будет в объект складывать их, причём программист полюбому знает в который из них складывается быстрей всего.
ну вот такие аргументы они уместней, хотя на самом деле не долго, не сложно, не глупо и не бессмысленно. Разве что не оптимально. Но кого это волнует когда можно всякого напридумывать, да?
|
пример показан что не всегда C быстрей ) да можно конечно написать свой curl, но как по мне это тупо, и да может на асм писать сразу скорость будет ууух какая или не ? я про то что глупо советовать человеку увеличить скорость парсинга переписав все на C, это как в лужу пернуть в данном случаи, парсить строки что С что python будуы очень быстро, а вот скорость разработки, поддержки и маштабируемость это уже вопрост, как ты такое будешь на C поддерживать ) и не говори что ухх как легко )) иначе мы бы до сих пор все писали только на C.
Последний раз редактировалось masolit; 21.07.2015 в 15:32.
|
|
|
21.07.2015, 15:45
|
#21
|
Senior Member
Регистрация: 31.03.2011
Сообщений: 3,360
Бабло: $669045
|
Цитата:
Сообщение от masolit
пример показан что не всегда C быстрей ) да можно конечно написать свой curl, но как по мне это тупо, и да может на асм писать сразу скорость будет ууух какая или не ?
|
я не против питона, чего ты кипятишься ? ) Пусть будет твой любимый питон. Я же писал "си или мож что-то найдешь быстрей". Вот я ты говоришь что питон лушче - норм.
Цитата:
Сообщение от masolit
я про то что глупо советовать человеку увеличить скорость парсинга переписав все на C, это как в лужу пернуть в данном случаи
|
А что переписать? Он упомянул апарсер, я не советовал ему переписывать апарсер
Цитата:
Сообщение от masolit
парсить строки что С что python будуы очень быстро, а вот скорость разработки, поддержки и маштабируемость это уже вопрост, как ты такое будешь на C поддерживать ) и не говори что ухх как легко )) иначе мы бы до сих пор все писали только на C.
|
Не знаю есть ли для си такие же готовые решения как для питона, но для какого-то из не интерпретируемых точно есть хорошие либы. И я как-то прозевал где тс хотел масштабировать.
|
|
|
|