grab - библиотека для парсинга - Форум успешных вебмастеров - GoFuckBiz.com - Страница 2
 
 
Форум успешных вебмастеров - GoFuckBiz.com

  Форум успешных вебмастеров - GoFuckBiz.com > Бизнес-решения > Скрипты, программы и технические решения
Дата
USD/RUB88.4375
BTC/USD67749.4365
Скрипты, программы и технические решения Обсуждаем скрипты, программы и новые технологии.

Закрытая тема
Опции темы Опции просмотра
Старый 24.10.2011, 11:49
Start Post: grab - библиотека для парсинга 
  #11
lorien
Senior Member
 
Аватар для lorien
 
Регистрация: 18.05.2009
Сообщений: 925
Бабло: $196595
По умолчанию

Здравствуйте.

Я являюсь автором библиотеки grab - это python-библиотека, предоставляющая простой и понятный интерфейс к библиотекам pycurl и lxml. Библиотека разрабыватывается уже не первый год, основные задачи библиотеки - парсинг веб-ресурсов, автоматизация заполнения форм, работа с API веб-сервисов.

Вводную статью можно прочитать на хабрахабре: http://habrahabr.ru/blogs/python/127584/

Могу ответить на любые ваши вопросы по библиотеке здесь или в google группе: http://groups.google.com/
__________________
TgScan - узнай Telegram группы, в которых состоит человек
lorien вне форума  
Старый 24.10.2011, 14:31   #12
kalombo
Senior Member
 
Регистрация: 20.04.2008
Сообщений: 599
Бабло: $116367
Отправить сообщение для kalombo с помощью ICQ
По умолчанию

Цитата:
Сообщение от rushter Посмотреть сообщение
Библиотека хорошая, только вот бы работу с urllib допили .
А то начали и утихло вроде как.
А зачем это может быть нужно вообще?
kalombo вне форума  
Старый 24.10.2011, 14:55   #13
rushter
Senior Member
 
Регистрация: 28.11.2009
Сообщений: 1,787
Бабло: $299365
По умолчанию

Меньше нагрузка и не нет проблем с установкой на серверах.
rushter вне форума  
Старый 24.10.2011, 17:57   #14
lorien
Senior Member
 
Аватар для lorien
 
Регистрация: 18.05.2009
Сообщений: 925
Бабло: $196595
ТС -->
автор темы ТС По умолчанию

Цитата:
Меньше нагрузка
Почему меньше? Вы проводили реальные тесты потребления CPU/Memory pycurl и urllib парсерами?
__________________
TgScan - узнай Telegram группы, в которых состоит человек
lorien вне форума  
Старый 24.10.2011, 18:41   #15
WebNinja
grablab.org
 
Аватар для WebNinja
 
Регистрация: 18.09.2007
Адрес: Thailand
Сообщений: 4,891
Бабло: $322264
Отправить сообщение для WebNinja с помощью ICQ Отправить сообщение для WebNinja с помощью Skype™
По умолчанию

юзаю вдс с debian и не парюсь по этому поводу - советую сделать так же.
__________________
www.imscraping.ninja
grablab.org | blog
WebNinja вне форума  
Старый 24.10.2011, 19:32   #16
rushter
Senior Member
 
Регистрация: 28.11.2009
Сообщений: 1,787
Бабло: $299365
По умолчанию

Цитата:
Сообщение от lorien Посмотреть сообщение
Почему меньше? Вы проводили реальные тесты потребления CPU/Memory pycurl и urllib парсерами?
Ну потому-что меньше . Плюс курл не даст в одном инстансе многопоточно дёргать странички , а urllib вроде как не плодит их при использовании.

Последний раз редактировалось rushter; 24.10.2011 в 19:37.
rushter вне форума  
Старый 24.10.2011, 20:09   #17
lorien
Senior Member
 
Аватар для lorien
 
Регистрация: 18.05.2009
Сообщений: 925
Бабло: $196595
ТС -->
автор темы ТС По умолчанию

Цитата:
Ну потому-что меньше .
Вы тесты проводили или нет? Если нет, то я не пойму, о чём мы говорим

Цитата:
Плюс курл не даст в одном инстансе многопоточно дёргать странички , а urllib вроде как не плодит их при использовании.
Вроде как или точно? Плодит кого? Я привык предметно разговаривать. Я сам плохо представляю, как работает urllib в нескольких-тредах. И я не против того, что urllib меньше жрёт меньше CPU или памяти (если это действительно так), я просто не понимаю, на основе чего сделаны эти выводы.
__________________
TgScan - узнай Telegram группы, в которых состоит человек
lorien вне форума  
Старый 24.10.2011, 20:14   #18
rushter
Senior Member
 
Регистрация: 28.11.2009
Сообщений: 1,787
Бабло: $299365
По умолчанию

Цитата:
Вы
На какой форум я попал .

Проводил я тесты и использую urllib, если не надо заморачиваться с прокси,куками и т.д.
НУ и ещё, например, курл иногда отказывается инициализировать свои копии при большом количестве потоков, хотя ресурсов вроде как предостаточно.
Хочется всётаки иметь одинаковый интерфейс, пусть и с отсутствием части функционала, а не выбирать между grab и urllib.
rushter вне форума  
Старый 26.10.2011, 00:29   #19
aka791
Member
 
Регистрация: 28.09.2009
Сообщений: 30
Бабло: $6815
По умолчанию

скинемся lorienу чтоб прикрутил splinter
aka791 вне форума  
Старый 26.10.2011, 01:57   #20
NTллигент
Senior Member
 
Аватар для NTллигент
 
Регистрация: 23.04.2007
Адрес: Leopolis
Сообщений: 359
Бабло: $71530
По умолчанию

Цитата:
Сообщение от aka791 Посмотреть сообщение
скинемся lorienу чтоб прикрутил splinter
я за)
NTллигент вне форума  
Старый 26.10.2011, 07:20   #21
kalombo
Senior Member
 
Регистрация: 20.04.2008
Сообщений: 599
Бабло: $116367
Отправить сообщение для kalombo с помощью ICQ
По умолчанию

Цитата:
Сообщение от aka791 Посмотреть сообщение
скинемся lorienу чтоб прикрутил splinter
Хорошая вещь? Лучше spynner? Зачем его куда-то прикручивать, почему сразу не пользоваться?
kalombo вне форума