Парсер Гугла - Форум успешных вебмастеров - GoFuckBiz.com - Страница 2
 
 
Форум успешных вебмастеров - GoFuckBiz.com

  Форум успешных вебмастеров - GoFuckBiz.com > Бизнес-решения > Скрипты, программы и технические решения
Дата
USD/RUB89.7026
BTC/USD68644.6161
Скрипты, программы и технические решения Обсуждаем скрипты, программы и новые технологии.

Закрытая тема
Опции темы Опции просмотра
Старый 11.07.2012, 21:23
Start Post: Парсер Гугла 
  #11
sspy
главный злодей гофака
 
Аватар для sspy
 
Регистрация: 18.06.2007
Сообщений: 5,760
Бабло: $953848
По умолчанию

Какие сейчас парсеры актуальны ?
__________________
sspy вне форума  
Старый 12.07.2012, 23:18   #12
mlu
Senior Member
 
Аватар для mlu
 
Регистрация: 17.02.2011
Сообщений: 153
Бабло: $26940
Отправить сообщение для mlu с помощью ICQ
По умолчанию

Есть еще бесплатный парсер в виде модуля для checkparams: http://checkparams.com/ru/node/168

Проксичекер в комплекте к чекпарамс 8)
mlu вне форума  
Старый 13.07.2012, 00:50   #13
1een
Senior Member
 
Аватар для 1een
 
Регистрация: 28.05.2009
Сообщений: 1,321
Бабло: $164090
По умолчанию

Цитата:
Сообщение от sspy Посмотреть сообщение
Хрефер же если прокси чуть глючат теряет все запросы, очень "нежный" парсер. Как по мне ему красная цена полтинник, больше он не стоит. У тебя сколько резалтов получалось на нем пропарсить ?
30М. Соглашусь, что алгоритм простой проще некуда, но если немного пораскинуть с запросами - то можно обойти и баны и пропуски - выпарсить придется больше - но все равно потом чекать и чистить.

Систему он не очень грузит, ну, подумаешь, заберет одно ядро , мне не жалко, пусть пашет.

Последний раз редактировалось 1een; 13.07.2012 в 01:04.
1een вне форума  
Старый 13.07.2012, 01:48   #14
adamant
KrebsonSecurity
 
Аватар для adamant
 
Регистрация: 15.05.2010
Адрес: в Зазеркалье
Сообщений: 1,646
Бабло: $426045
По умолчанию

ну у меня 4 копии хрума работает с разными заданиями, парсер баблса 12 заданий по 200 потоков, с запросами не мудрил, закидывал паблик который в нете лежит, так что при старте скорость сбора очень радовала а потом пошли неуник урлы.

все это куриться на одном серваке
adamant вне форума  
Старый 13.07.2012, 02:01   #15
Maximus325
Технодаун
 
Регистрация: 11.05.2007
Сообщений: 10,384
Бабло: $1503235
По умолчанию

В подписи.
__________________
ноу криминалити ин раша
Maximus325 вне форума  
Старый 13.07.2012, 02:21   #16
WebNinja
grablab.org
 
Аватар для WebNinja
 
Регистрация: 18.09.2007
Адрес: Thailand
Сообщений: 4,893
Бабло: $322264
Отправить сообщение для WebNinja с помощью ICQ Отправить сообщение для WebNinja с помощью Skype™
По умолчанию

для парсинга ПС весьма вероятная проблема - кучи проксей, при больших объемах. + классический баттл Десктоп vs. Сервер.

30М при 10 резалтах на странице превращаются в 3 ляма запросов ) это баловство.

Цитата:
В подписи.
вот жеж как я и говорил выше, человек разработал такой охуенный софт, это куча времени на разработку, тестирование и т.д., а там "успешные" эксперты ноют как дорого 150 баксов и абонентка (да и дайте им еще бесплатные прокси) и что есть "другие решения, которые бесплатно ваааще"
__________________
www.imscraping.ninja
grablab.org | blog
WebNinja вне форума  
Старый 13.07.2012, 03:03   #17
1een
Senior Member
 
Аватар для 1een
 
Регистрация: 28.05.2009
Сообщений: 1,321
Бабло: $164090
По умолчанию

Цитата:
Сообщение от WebNinja Посмотреть сообщение
30М при 10 резалтах на странице превращаются в 3 ляма запросов ) это баловство.
:
Дубли удаляются, ну четы, не лохи ж тут. Раз в дцать больше.

И все верно насчет проксей. Еще раз для разработчиков: написать собиралку ссылок по входящему урлу - это конечно задача с мировой олимпиады по программированию.

А скачните ProxyFire (да, придется, поставить виртуалку на lunix, тяжело но пережить можно), посмотрите, как он работает и реализуйте в своем продукте. Вот тогда я куплю. Просто оторву с руками.

Последний раз редактировалось 1een; 13.07.2012 в 03:08.
1een вне форума  
Старый 13.07.2012, 03:21   #18
Maximus325
Технодаун
 
Регистрация: 11.05.2007
Сообщений: 10,384
Бабло: $1503235
По умолчанию

У меня парсит лямов 30 за 4-5 дней в 400 поток на авмпроксях.
После удаления дублей отсается 4-5 лямов. Из которых актив все глишь 5-10к ресов.
Чего то может с запросами у меня не так, устал парсить уже.

Если у кого есть база запросов для апостера (своя какая то хитровыебаная), но нету парсера готов скоопирироваться. Я паршу, база вам и мне. Дальше меня база и запросы не уйдут.
Ну это если интересно кому конечно.
__________________
ноу криминалити ин раша
Maximus325 вне форума  
Старый 13.07.2012, 05:03   #19
WebNinja
grablab.org
 
Аватар для WebNinja
 
Регистрация: 18.09.2007
Адрес: Thailand
Сообщений: 4,893
Бабло: $322264
Отправить сообщение для WebNinja с помощью ICQ Отправить сообщение для WebNinja с помощью Skype™
По умолчанию

Цитата:
Еще раз для разработчиков: написать собиралку ссылок по входящему урлу - это конечно задача с мировой олимпиады по программированию.
напиши ) на словах то канешно все просто получается, примерно как:
"...все бабы бляди и солнце ебаный фонарь"

Цитата:
А скачните ProxyFire (да, придется, поставить виртуалку на lunix, тяжело но пережить можно), посмотрите, как он работает и реализуйте в своем продукте.
а может и поебаться еще завернуть на сдачу?

Цитата:
Вот тогда я куплю.
ага.
[виндовс|whatever] тоже покупаешь? или там тоже "что то не так"

30лямов это 3.4 гига где-то только сами ссылки будут весить ) я уж боюсь представить размеры файлов кого "раз в n-цать больше"
Цитата:
После удаления дублей отсается 4-5 лямов. Из которых актив все глишь 5-10к ресов.
за сколько по времени дубли удаляются с такого объема?
__________________
www.imscraping.ninja
grablab.org | blog

Последний раз редактировалось WebNinja; 13.07.2012 в 05:09.
WebNinja вне форума  
Старый 13.07.2012, 05:19   #20
Maximus325
Технодаун
 
Регистрация: 11.05.2007
Сообщений: 10,384
Бабло: $1503235
По умолчанию

Цитата:
Сообщение от WebNinja Посмотреть сообщение

за сколько по времени дубли удаляются с такого объема?
PHP код:
sort -'/' -k2,-u base.txt base2.txt 
Это форбиден кстати посоветовал, минут 5-7 вроде.
__________________
ноу криминалити ин раша
Maximus325 вне форума  
Старый 13.07.2012, 05:19   #21
sspy
главный злодей гофака
 
Аватар для sspy
 
Регистрация: 18.06.2007
Сообщений: 5,760
Бабло: $953848
ТС -->
автор темы ТС По умолчанию

Цитата:
Сообщение от Maximus325 Посмотреть сообщение
В подписи.
вот к нему я и склоняюсь, если с хреферером непрокатит
Цитата:
Сообщение от WebNinja Посмотреть сообщение
вот жеж как я и говорил выше, человек разработал такой охуенный софт, это куча времени на разработку, тестирование и т.д., а там "успешные" эксперты ноют как дорого 150 баксов и абонентка (да и дайте им еще бесплатные прокси) и что есть "другие решения, которые бесплатно ваааще"
ты так говоришь как будто бесплатно это что-то плохое. сколько есть бесплатного и годного софта - это просто о...ть.

с одной стороны абонентка это залог что софт не сдохнет, а с другой это дибильное ограничение. и дело не в цене, а в принципе. просто сейчас многие хотят толкать свой софт как saas.
Цитата:
Сообщение от 1een Посмотреть сообщение
А скачните ProxyFire (да, придется, поставить виртуалку на lunix, тяжело но пережить можно), посмотрите, как он работает и реализуйте в своем продукте. Вот тогда я куплю. Просто оторву с руками.
на том-же grab или любом другом подобном классе функционал проксифера пилится за пару дней.
__________________
sspy вне форума