grab - библиотека для парсинга - Форум успешных вебмастеров - GoFuckBiz.com - Страница 13
 
 
Форум успешных вебмастеров - GoFuckBiz.com

  Форум успешных вебмастеров - GoFuckBiz.com > Бизнес-решения > Скрипты, программы и технические решения
Дата
USD/RUB88.4375
BTC/USD67560.1678
Скрипты, программы и технические решения Обсуждаем скрипты, программы и новые технологии.

Закрытая тема
Опции темы Опции просмотра
Старый 24.10.2011, 11:49
Start Post: grab - библиотека для парсинга 
  #121
lorien
Senior Member
 
Аватар для lorien
 
Регистрация: 18.05.2009
Сообщений: 925
Бабло: $196595
По умолчанию

Здравствуйте.

Я являюсь автором библиотеки grab - это python-библиотека, предоставляющая простой и понятный интерфейс к библиотекам pycurl и lxml. Библиотека разрабыватывается уже не первый год, основные задачи библиотеки - парсинг веб-ресурсов, автоматизация заполнения форм, работа с API веб-сервисов.

Вводную статью можно прочитать на хабрахабре: http://habrahabr.ru/blogs/python/127584/

Могу ответить на любые ваши вопросы по библиотеке здесь или в google группе: http://groups.google.com/
__________________
TgScan - узнай Telegram группы, в которых состоит человек
lorien вне форума  
Старый 23.02.2013, 20:38   #122
lorien
Senior Member
 
Аватар для lorien
 
Регистрация: 18.05.2009
Сообщений: 925
Бабло: $196595
ТС -->
автор темы ТС По умолчанию

Пока никто не выразил желания работать над этим направлением.

А что именно ты ждёшь от этого транспорта? Чем именно не устраивает родной интерфейс селениума?
__________________
TgScan - узнай Telegram группы, в которых состоит человек
lorien вне форума  
Старый 23.02.2013, 21:02   #123
sspy
главный злодей гофака
 
Аватар для sspy
 
Регистрация: 18.06.2007
Сообщений: 5,737
Бабло: $953848
По умолчанию

Цитата:
Сообщение от lorien Посмотреть сообщение
А что именно ты ждёшь от этого транспорта? Чем именно не устраивает родной интерфейс селениума?
жду привычного синтаксиса. родной не использовал, но походу придется осваивать.
__________________
sspy вне форума  
Старый 25.02.2013, 15:40   #124
lorien
Senior Member
 
Аватар для lorien
 
Регистрация: 18.05.2009
Сообщений: 925
Бабло: $196595
ТС -->
автор темы ТС По умолчанию

Боюсь, не скоро у меня руки дойдут, а если и дойдут, то скорее до вебкита.
Я тут последние дни всякие ништяки встраиваю в граб, вчера вот чего написал: https://bitbucket.org/lorien/grab/sr....py?at=default
По-сути это аналог скрапи селекторов, только конечно не один в один.

Если, например, раньше после grab.xpath(xpath_exp) вы получали голый список ElementTree нод, то теперь после grab.doc.select(xpath_exp) - вы получаете список селектор, к акждому из которых можно опять применить метод select. Метод выборки теперь только один - select, а если надо получить из него первый элемент, то .select().one(), если текст из первого элемента, то .select().text()
__________________
TgScan - узнай Telegram группы, в которых состоит человек
lorien вне форума  
Старый 20.03.2013, 09:24   #125
lorien
Senior Member
 
Аватар для lorien
 
Регистрация: 18.05.2009
Сообщений: 925
Бабло: $196595
ТС -->
автор темы ТС По умолчанию

Написал статью по новому интерфейсу селекторов: http://habrahabr.ru/post/173509/
__________________
TgScan - узнай Telegram группы, в которых состоит человек
lorien вне форума  
Старый 19.06.2013, 19:51   #126
lorien
Senior Member
 
Аватар для lorien
 
Регистрация: 18.05.2009
Сообщений: 925
Бабло: $196595
ТС -->
автор темы ТС По умолчанию

Обложился исходниками Ghost.py, spynner и прочих обёрток для webkit. Пишу свою обёртку. Вернее в диком угаре набросал минимально рабочий код, по-сути половину Ghost.py реализовал. Думаю, в этом году уже доведу до ума webkit-транспорт в грабе. Пока отложил работу с webkit, вернусь к задаче через недельку-другую.

Любопытствующие могут поглядеть код webkit-обёртки, он кстати может использоваться в отрыве от Grab: https://github.com/lorien/grab/blob/...it/__init__.py

А вот собственно как щас выглядит транспорт, использующий этот kit модуль: https://github.com/lorien/grab/blob/...ansport/kit.py

В общем, когда я допилю эту хрень, все фичи, что щас можно использовать в Grab с помощью pycurl, можно будет делать с помощью webkit. Ну и потом в некотором будущем прикручу webkit к Grab::Spider, видимо, с помощью пула-процессов.
__________________
TgScan - узнай Telegram группы, в которых состоит человек
lorien вне форума  
Старый 24.07.2013, 22:37   #127
sspy
главный злодей гофака
 
Аватар для sspy
 
Регистрация: 18.06.2007
Сообщений: 5,737
Бабло: $953848
По умолчанию

как с помощью grab spider ограничить 1 поток на домен при использовании многопоточности ?
__________________
sspy вне форума  
Старый 25.07.2013, 12:28   #128
lorien
Senior Member
 
Аватар для lorien
 
Регистрация: 18.05.2009
Сообщений: 925
Бабло: $196595
ТС -->
автор темы ТС По умолчанию

На данный момент никак. Можно использовать не спайдер, а вручную запускать процессы через multiprocessing или через celery и внутри каждого процесса в один поток (можно и спайдером) работать с доменом.
__________________
TgScan - узнай Telegram группы, в которых состоит человек
lorien вне форума