Парсер серпа - Форум успешных вебмастеров - GoFuckBiz.com
 
 
Форум успешных вебмастеров - GoFuckBiz.com

  Форум успешных вебмастеров - GoFuckBiz.com > Бизнес-решения > Скрипты, программы и технические решения
Дата
USD/RUB93.4409
BTC/USD66629.3596
Скрипты, программы и технические решения Обсуждаем скрипты, программы и новые технологии.

Закрытая тема
Опции темы Опции просмотра
Старый 13.09.2010, 02:02   #1
lorien
Senior Member
 
Аватар для lorien
 
Регистрация: 18.05.2009
Сообщений: 928
Бабло: $196595
По умолчанию Парсер серпа

Интересно, кто чем парсит поисковую выдачу.
Раньше видел, что были платные тулзы типа ауры на перле.
Если написать быструю мультипоточную парсилку не жрущую память, работающую из командной строки на linux/windows/macos, на неё будет спрос пусть и за не большую цену?
__________________
TgScan - узнай Telegram группы, в которых состоит человек
lorien вне форума  
Старый 13.09.2010, 02:56   #2
simba
Member
 
Регистрация: 11.09.2010
Сообщений: 56
Бабло: $7755
По умолчанию

Цитата:
Сообщение от lorien Посмотреть сообщение
Интересно, кто чем парсит поисковую выдачу.
Раньше видел, что были платные тулзы типа ауры на перле.
Если написать быструю мультипоточную парсилку не жрущую память, работающую из командной строки на linux/windows/macos, на неё будет спрос пусть и за не большую цену?
А в каком виде вы хотите сохранять результаты парсинга?
__________________
Блог Симбы
simba вне форума  
Старый 13.09.2010, 03:36   #3
jonn22
Senior Member
 
Аватар для jonn22
 
Регистрация: 19.06.2007
Сообщений: 398
Бабло: $36496
По умолчанию

уже не будет спроса
__________________
http://jonn22.com
jonn22 вне форума  
Старый 13.09.2010, 05:55   #4
wadonius
Sado Mazda
 
Аватар для wadonius
 
Регистрация: 23.04.2007
Сообщений: 716
Бабло: $146880
По умолчанию

тут наверно уже вся ниша занята
wadonius вне форума  
Старый 13.09.2010, 10:25   #5
redlain
Ебланнед
 
Регистрация: 27.10.2009
Сообщений: 1,628
Бабло: $240645
По умолчанию

Цитата:
Сообщение от jonn22 Посмотреть сообщение
уже не будет спроса
можешь чтото предложить?
redlain вне форума  
Старый 13.09.2010, 16:43   #6
lorien
Senior Member
 
Аватар для lorien
 
Регистрация: 18.05.2009
Сообщений: 928
Бабло: $196595
ТС -->
автор темы ТС По умолчанию

> А в каком виде вы хотите сохранять результаты парсинга?

А видов этих не особо много Текстовый файл или база данных, а всё остальное уже вариации.

> тут наверно уже вся ниша занята

А чем занята? Покажите, примеры, пожалуйста, парсеров парсящих выдачу google в промышленных объёмах.

> уже не будет спроса

Почему не будет? Парсинг серпа уже неактуален?
__________________
TgScan - узнай Telegram группы, в которых состоит человек
lorien вне форума  
Старый 13.09.2010, 18:50   #7
LorikX
Senior Member
 
Регистрация: 07.01.2008
Сообщений: 148
Бабло: $19810
Отправить сообщение для LorikX с помощью ICQ
По умолчанию

Цитата:
Сообщение от lorien Посмотреть сообщение
Интересно, кто чем парсит поисковую выдачу.
Раньше видел, что были платные тулзы типа ауры на перле.
Если написать быструю мультипоточную парсилку не жрущую память, работающую из командной строки на linux/windows/macos, на неё будет спрос пусть и за не большую цену?
1. заебешься ты бан по IP со стороны гуглы обходить ....
2. Заебешься ты парсить постоянно меняющийся формат выдачи ...

И кучу прочего ты делать заебешься
__________________
Желаний больше чем денег !!!
LorikX вне форума  
Старый 13.09.2010, 19:41   #8
digg
$400
 
Аватар для digg
 
Регистрация: 17.05.2009
Сообщений: 13,945
Бабло: $1895050
Отправить сообщение для digg с помощью ICQ
По умолчанию

Цитата:
Сообщение от LorikX Посмотреть сообщение
1. заебешься ты бан по IP со стороны гуглы обходить ....
2. Заебешься ты парсить постоянно меняющийся формат выдачи ...

И кучу прочего ты делать заебешься
вот проблема
digg на форуме  
Старый 13.09.2010, 21:20   #9
lorien
Senior Member
 
Аватар для lorien
 
Регистрация: 18.05.2009
Сообщений: 928
Бабло: $196595
ТС -->
автор темы ТС По умолчанию

> 1. заебешься ты бан по IP со стороны гуглы обходить

Я думаю тут должны работать стандартные методы: анонимные прокси и/или разгадывание капчи через антикапча сервисы. Ещё, может быть, можно использовать разные датацентры и прочие приколы.

> 2. Заебешься ты парсить постоянно меняющийся формат выдачи

Он же не каждый час меняется, да и не каждый день, наверное. В том и смысл платной парсилки, что обновления бесплатные или платные, но они есть
__________________
TgScan - узнай Telegram группы, в которых состоит человек
lorien вне форума  
Старый 14.09.2010, 13:20   #10
ewolwer
OldSchool
 
Аватар для ewolwer
 
Регистрация: 07.12.2008
Сообщений: 426
Бабло: $40822
По умолчанию

Парсить через антикапча сервисы это наверн будет прикольно )
Прикрути прокси/соксы, придумай фичу что бы формат выдачи не задрачивал, и еще много интересного попридумывай, дай двум трём человекам на тест а потом смотри будет спрос или нет) если спроса не будет юзай сам)
"не жрущую память" - а что жрать будет? проц? и как себя будет вести при условии что напаршенная база в 10-20-30лямов)
тут много ньюансов есть) Напишешь рульный парсер, обеспечишь поддержку и не дорогоую цену, хули - спрос появится обязательно)
__________________
чеснок.
ewolwer вне форума