|
| Дата |
|
USD/RUB | 89.7026 | BTC/USD | 68532.9441 |
|
|
|
Скрипты, программы и технические решения Обсуждаем скрипты, программы и новые технологии. |
11.07.2012, 21:23
|
Start Post: Парсер Гугла
|
главный злодей гофака
Регистрация: 18.06.2007
Сообщений: 5,760
Бабло: $953848
|
Какие сейчас парсеры актуальны ?
__________________
|
|
|
12.07.2012, 23:18
|
#12
|
Senior Member
Регистрация: 17.02.2011
Сообщений: 153
Бабло: $26940
|
Есть еще бесплатный парсер в виде модуля для checkparams: http://checkparams.com/ru/node/168
Проксичекер в комплекте к чекпарамс 8)
|
|
|
13.07.2012, 00:50
|
#13
|
Senior Member
Регистрация: 28.05.2009
Сообщений: 1,321
Бабло: $164090
|
Цитата:
Сообщение от sspy
Хрефер же если прокси чуть глючат теряет все запросы, очень "нежный" парсер. Как по мне ему красная цена полтинник, больше он не стоит. У тебя сколько резалтов получалось на нем пропарсить ?
|
30М. Соглашусь, что алгоритм простой проще некуда, но если немного пораскинуть с запросами - то можно обойти и баны и пропуски - выпарсить придется больше - но все равно потом чекать и чистить.
Систему он не очень грузит, ну, подумаешь, заберет одно ядро , мне не жалко, пусть пашет.
Последний раз редактировалось 1een; 13.07.2012 в 01:04.
|
|
|
13.07.2012, 01:48
|
#14
|
KrebsonSecurity
Регистрация: 15.05.2010
Адрес: в Зазеркалье
Сообщений: 1,646
Бабло: $426045
|
ну у меня 4 копии хрума работает с разными заданиями, парсер баблса 12 заданий по 200 потоков, с запросами не мудрил, закидывал паблик который в нете лежит, так что при старте скорость сбора очень радовала а потом пошли неуник урлы.
все это куриться на одном серваке
|
|
|
13.07.2012, 02:01
|
#15
|
Технодаун
Регистрация: 11.05.2007
Сообщений: 10,384
Бабло: $1503235
|
В подписи.
__________________
ноу криминалити ин раша
|
|
|
13.07.2012, 02:21
|
#16
|
grablab.org
Регистрация: 18.09.2007
Адрес: Thailand
Сообщений: 4,893
Бабло: $322264
|
для парсинга ПС весьма вероятная проблема - кучи проксей, при больших объемах. + классический баттл Десктоп vs. Сервер.
30М при 10 резалтах на странице превращаются в 3 ляма запросов ) это баловство.
вот жеж как я и говорил выше, человек разработал такой охуенный софт, это куча времени на разработку, тестирование и т.д., а там "успешные" эксперты ноют как дорого 150 баксов и абонентка (да и дайте им еще бесплатные прокси) и что есть "другие решения, которые бесплатно ваааще"
|
|
|
13.07.2012, 03:03
|
#17
|
Senior Member
Регистрация: 28.05.2009
Сообщений: 1,321
Бабло: $164090
|
Цитата:
Сообщение от WebNinja
30М при 10 резалтах на странице превращаются в 3 ляма запросов ) это баловство.
:
|
Дубли удаляются, ну четы, не лохи ж тут. Раз в дцать больше.
И все верно насчет проксей. Еще раз для разработчиков: написать собиралку ссылок по входящему урлу - это конечно задача с мировой олимпиады по программированию.
А скачните ProxyFire (да, придется, поставить виртуалку на lunix, тяжело но пережить можно), посмотрите, как он работает и реализуйте в своем продукте. Вот тогда я куплю. Просто оторву с руками.
Последний раз редактировалось 1een; 13.07.2012 в 03:08.
|
|
|
13.07.2012, 03:21
|
#18
|
Технодаун
Регистрация: 11.05.2007
Сообщений: 10,384
Бабло: $1503235
|
У меня парсит лямов 30 за 4-5 дней в 400 поток на авмпроксях.
После удаления дублей отсается 4-5 лямов. Из которых актив все глишь 5-10к ресов.
Чего то может с запросами у меня не так, устал парсить уже.
Если у кого есть база запросов для апостера (своя какая то хитровыебаная), но нету парсера готов скоопирироваться. Я паршу, база вам и мне. Дальше меня база и запросы не уйдут.
Ну это если интересно кому конечно.
__________________
ноу криминалити ин раша
|
|
|
13.07.2012, 05:03
|
#19
|
grablab.org
Регистрация: 18.09.2007
Адрес: Thailand
Сообщений: 4,893
Бабло: $322264
|
Цитата:
Еще раз для разработчиков: написать собиралку ссылок по входящему урлу - это конечно задача с мировой олимпиады по программированию.
|
напиши ) на словах то канешно все просто получается, примерно как:
"...все бабы бляди и солнце ебаный фонарь"
Цитата:
А скачните ProxyFire (да, придется, поставить виртуалку на lunix, тяжело но пережить можно), посмотрите, как он работает и реализуйте в своем продукте.
|
а может и поебаться еще завернуть на сдачу?
ага.
[виндовс|whatever] тоже покупаешь? или там тоже "что то не так"
30лямов это 3.4 гига где-то только сами ссылки будут весить ) я уж боюсь представить размеры файлов кого "раз в n-цать больше"
Цитата:
После удаления дублей отсается 4-5 лямов. Из которых актив все глишь 5-10к ресов.
|
за сколько по времени дубли удаляются с такого объема?
Последний раз редактировалось WebNinja; 13.07.2012 в 05:09.
|
|
|
13.07.2012, 05:19
|
#20
|
Технодаун
Регистрация: 11.05.2007
Сообщений: 10,384
Бабло: $1503235
|
Цитата:
Сообщение от WebNinja
за сколько по времени дубли удаляются с такого объема?
|
PHP код:
sort -t '/' -k2,3 -u base.txt > base2.txt
Это форбиден кстати посоветовал, минут 5-7 вроде.
__________________
ноу криминалити ин раша
|
|
|
13.07.2012, 05:19
|
#21
|
главный злодей гофака
Регистрация: 18.06.2007
Сообщений: 5,760
Бабло: $953848
ТС -->
|
ТС
Цитата:
Сообщение от Maximus325
В подписи.
|
вот к нему я и склоняюсь, если с хреферером непрокатит
Цитата:
Сообщение от WebNinja
вот жеж как я и говорил выше, человек разработал такой охуенный софт, это куча времени на разработку, тестирование и т.д., а там "успешные" эксперты ноют как дорого 150 баксов и абонентка (да и дайте им еще бесплатные прокси) и что есть "другие решения, которые бесплатно ваааще"
|
ты так говоришь как будто бесплатно это что-то плохое. сколько есть бесплатного и годного софта - это просто о...ть.
с одной стороны абонентка это залог что софт не сдохнет, а с другой это дибильное ограничение. и дело не в цене, а в принципе. просто сейчас многие хотят толкать свой софт как saas.
Цитата:
Сообщение от 1een
А скачните ProxyFire (да, придется, поставить виртуалку на lunix, тяжело но пережить можно), посмотрите, как он работает и реализуйте в своем продукте. Вот тогда я куплю. Просто оторву с руками.
|
на том-же grab или любом другом подобном классе функционал проксифера пилится за пару дней.
__________________
|
|
|
|