Python. Scrapy. - Форум успешных вебмастеров - GoFuckBiz.com
 
 
Форум успешных вебмастеров - GoFuckBiz.com

  Форум успешных вебмастеров - GoFuckBiz.com > Бизнес-решения > Скрипты, программы и технические решения
Дата
USD/RUB90.7493
BTC/USD70432.6255
Скрипты, программы и технические решения Обсуждаем скрипты, программы и новые технологии.

Закрытая тема
Опции темы Опции просмотра
Старый 17.04.2011, 10:29   #1
kalombo
Senior Member
 
Регистрация: 20.04.2008
Сообщений: 604
Бабло: $116367
Отправить сообщение для kalombo с помощью ICQ
По умолчанию Python. Scrapy.

Кто-нибудь scrapy юзал? Вроде как краулер мегановороченный, но на написание простейшего парсера столько времени убил, а результата так и не добился. Задал бы пару вопросов, если кто с ним разобрался.
kalombo вне форума  
Старый 17.04.2011, 11:12   #2
KongWeiLing
Senior Member
 
Аватар для KongWeiLing
 
Регистрация: 28.03.2011
Сообщений: 419
Бабло: $81005
По умолчанию

как-то юзал, сурсы можно поискать, но вроде в мануалах все было. Но у меня там не особо сложный парсинг был(по структуре источника).
KongWeiLing вне форума  
Старый 17.04.2011, 11:35   #3
kalombo
Senior Member
 
Регистрация: 20.04.2008
Сообщений: 604
Бабло: $116367
ТС -->
Отправить сообщение для kalombo с помощью ICQ
автор темы ТС По умолчанию

Цитата:
Сообщение от KongWeiLing Посмотреть сообщение
как-то юзал, сурсы можно поискать, но вроде в мануалах все было. Но у меня там не особо сложный парсинг был(по структуре источника).
Как его заставить ходить по редиректам? Если он видит 301 в странице, он её тупо игнорит. Нашел одно решение http://groups.google.com/group/scrap...1646c7e1bc0c53. Он начал сохранять эти страницы, не переходить, а сохранять эти страницы с 301 редиректом, а они, естественно пустые.
kalombo вне форума  
Старый 17.04.2011, 13:10   #4
KongWeiLing
Senior Member
 
Аватар для KongWeiLing
 
Регистрация: 28.03.2011
Сообщений: 419
Бабло: $81005
По умолчанию

я 301 пропускал, даж в хендл не загонял.
если на питон.су твой код, почему юзаешь урллиб2 а не скрэпишный хттп? полностью вникнуть пока лень, но если твой скрипт сохраняет саму страницу 301, может выполнять запрос с парсингом как они в мануалах через Request(url, callback=self.parse)? у них оно для парсинга подстраниц как я понимаю:
Код:
    def parse(self, response):
        hxs = HtmlXPathSelector(response)
        for h3 in hxs.select('//h3').extract():
            yield MyItem(title=h3)

        for url in hxs.select('//a/@href').extract():
            yield Request(url, callback=self.parse)
мануалы
KongWeiLing вне форума  
Старый 17.04.2011, 14:43   #5
imgreen
Senior Member
 
Аватар для imgreen
 
Регистрация: 15.11.2008
Сообщений: 13,224
Бабло: $247844971
По умолчанию

чем он примечателен?
imgreen вне форума  
Старый 17.04.2011, 14:54   #6
mrzaggi
Senior Member
 
Регистрация: 03.11.2010
Сообщений: 285
Бабло: $65960
По умолчанию

Вариант юзать Grub для хождения по страничкам? 301 редиректы им (а точнее курлом) на ура обрабатываются.
mrzaggi вне форума