Парсер серпа - Форум успешных вебмастеров - GoFuckBiz.com - Страница 2
 
 
Форум успешных вебмастеров - GoFuckBiz.com

  Форум успешных вебмастеров - GoFuckBiz.com > Бизнес-решения > Скрипты, программы и технические решения
Дата
USD/RUB90.2486
BTC/USD68756.8180
Скрипты, программы и технические решения Обсуждаем скрипты, программы и новые технологии.

Закрытая тема
Опции темы Опции просмотра
Старый 13.09.2010, 02:02
Start Post: Парсер серпа 
  #11
lorien
Senior Member
 
Аватар для lorien
 
Регистрация: 18.05.2009
Сообщений: 928
Бабло: $196595
По умолчанию

Интересно, кто чем парсит поисковую выдачу.
Раньше видел, что были платные тулзы типа ауры на перле.
Если написать быструю мультипоточную парсилку не жрущую память, работающую из командной строки на linux/windows/macos, на неё будет спрос пусть и за не большую цену?
__________________
TgScan - узнай Telegram группы, в которых состоит человек
lorien вне форума  
Старый 14.09.2010, 23:24   #12
lorien
Senior Member
 
Аватар для lorien
 
Регистрация: 18.05.2009
Сообщений: 928
Бабло: $196595
ТС -->
автор темы ТС По умолчанию

Окей, вижу некоторый интерес есть. Попробую чего-нибудь нарисовать и расскажу что получилось
__________________
TgScan - узнай Telegram группы, в которых состоит человек
lorien вне форума  
Старый 15.09.2010, 00:29   #13
Kass
Senior Member
 
Регистрация: 28.02.2008
Сообщений: 250
Бабло: $49675
По умолчанию

Цитата:
Сообщение от ewolwer Посмотреть сообщение
Парсить через антикапча сервисы это наверн будет прикольно )
Прикрути прокси/соксы, придумай фичу что бы формат выдачи не задрачивал, и еще много интересного попридумывай, дай двум трём человекам на тест а потом смотри будет спрос или нет) если спроса не будет юзай сам)
"не жрущую память" - а что жрать будет? проц? и как себя будет вести при условии что напаршенная база в 10-20-30лямов)
тут много ньюансов есть) Напишешь рульный парсер, обеспечишь поддержку и не дорогоую цену, хули - спрос появится обязательно)
и добавить нечего. Хороший многопоточный скриптовый парсер, всегда пригодится. Главное вынести настройки парсинга теплейта нормально. Что бы скрипт не был на тебя завязан.
Kass вне форума  
Старый 15.09.2010, 01:14   #14
twistsm
Member
 
Аватар для twistsm
 
Регистрация: 18.07.2010
Сообщений: 79
Бабло: $10160
По умолчанию

Будет спрос, если парсер будет иметь возможность парсить любую ПС.
Например, как hrefer. При помощи состемы шаблонов.

1. Пользователь может задать любой шаблон и добавить любую ПС
2. Пользователь может регуляркой задать любой объект парсинга (линк, тайтл, сниппет, etc..)

Среди гуевых парсеров я такого не видел. а консольные парсеры вроде как в паблике не наблюдаются, хотя это наверняка более надежно и сильно :-)

Давай лучше OpenSource зафигачим :-)
У мну есть парсер гугла написанный мной на python в сыром виде на коленках. Вполне рабочий. Можно над ним поработать и развить как OpenSource проект - мне не жалко :-)
__________________
http://aTape.net- Программирование и адвертайзинг
twistsm вне форума  
Старый 15.09.2010, 01:48   #15
t0ster
gold member
 
Регистрация: 18.03.2008
Сообщений: 12
Бабло: $2045
По умолчанию

На чем пишешь? Давай писать вместе, у меня есть парсер, который кое-как парсит гугл в несколько потоков с использованием антикапча сервисов написано все это на python/twisted.
t0ster вне форума  
Старый 15.09.2010, 04:55   #16
WebNinja
grablab.org
 
Аватар для WebNinja
 
Регистрация: 18.09.2007
Адрес: Thailand
Сообщений: 4,893
Бабло: $322264
Отправить сообщение для WebNinja с помощью ICQ Отправить сообщение для WebNinja с помощью Skype™
По умолчанию

Цитата:
Сообщение от lorien Посмотреть сообщение
Интересно, кто чем парсит поисковую выдачу.
Раньше видел, что были платные тулзы типа ауры на перле.
Если написать быструю мультипоточную парсилку не жрущую память, работающую из командной строки на linux/windows/macos, на неё будет спрос пусть и за не большую цену?
юзаю свою парсилку и твой (вроде твой) модуль-обертку grab

кстати http://ninjaside.info/2009/08/analiz...erp-na-python/
такой штукой пользуюсь тоже, но автор уже забил и после последнего патча некоторые функции не работают хотя солюшены есть комментах.
__________________
www.imscraping.ninja
grablab.org | blog
WebNinja вне форума  
Старый 15.09.2010, 13:42   #17
lorien
Senior Member
 
Аватар для lorien
 
Регистрация: 18.05.2009
Сообщений: 928
Бабло: $196595
ТС -->
автор темы ТС По умолчанию

Блин, меня заколебал opensource Я денег хочу, писать за просто так качественный продукт ради признания я не хочу. Хотя, шифровать исходники я не буду - всё равно утекёт в public потом, но мне кажется есть порядочные люди, которым будет не в ломы заплатить копеечку за скрипт, тем более что это подразумевает поддержку и обновления.

grab мой, ага, я кстати недавно туда добавил клёвую фичу по автозаполнению форм, теперь можно делать вещи типа:

g.go('some url')
g.set_input('username', '..')
g.set_input_by_id('id_password', '..')
g.submit()

Ну а hidden поля сами обработаются и ещё selectы заполнятся первыми вариантами.

В больших объёмах grab не получится использовать т.к. он подразумевает работу в потоках - а это затраты на память-процессор больше по сравнению с асинхронностью. Хотя... была идея прикрутить multicurl к grab, не пробовал пока.
__________________
TgScan - узнай Telegram группы, в которых состоит человек
lorien вне форума  
Старый 15.09.2010, 14:01   #18
rushter
Senior Member
 
Регистрация: 28.11.2009
Сообщений: 1,800
Бабло: $299365
По умолчанию

Это бы на urllib переписать, вообще бы круто было
rushter вне форума  
Старый 15.09.2010, 14:14   #19
lorien
Senior Member
 
Аватар для lorien
 
Регистрация: 18.05.2009
Сообщений: 928
Бабло: $196595
ТС -->
автор темы ТС По умолчанию

А чем pycurl плох?

На urllib есть похожий проект: http://wwwsearch.sourceforge.net/mechanize/
__________________
TgScan - узнай Telegram группы, в которых состоит человек
lorien вне форума  
Старый 15.09.2010, 14:27   #20
rushter
Senior Member
 
Регистрация: 28.11.2009
Сообщений: 1,800
Бабло: $299365
По умолчанию

Мехайнаиз мне не нравится, а с pycurl ресурсов прилично потребляется. И не даёт с одним объектом многопоточно работать, но это не так плохо и понятно по каким причинам это не сделать.
rushter вне форума  
Старый 15.09.2010, 15:56   #21
Kass
Senior Member
 
Регистрация: 28.02.2008
Сообщений: 250
Бабло: $49675
По умолчанию

TC, делай надо будет потестить я первый потещу через соксы
Kass вне форума