Форум успешных вебмастеров - GoFuckBiz.com

  Форум успешных вебмастеров - GoFuckBiz.com > Бизнес-решения > Скрипты, программы и технические решения
Дата
USD/RUB58.8180
BTC/USD0.0000
Скрипты, программы и технические решения Обсуждаем скрипты, программы и новые технологии.

Закрытая тема
Опции темы Опции просмотра
Старый 04.02.2008, 17:26   #1
pina
хде мой компот?!
 
Регистрация: 07.01.2008
Сообщений: 327
Бабло: $31276
Отправить сообщение для pina с помощью ICQ
По умолчанию Потестите парсер плз

Вот сам парсер, http://milok.biz/tools/blog_parser.php
По задумке он должен парсить блоги, но так же может парсить сайты... Потестите плиз кому не вломы. Пишите, пожалуйста, сюда ошибки которые заметили. В итоге после парсинга должен получиться контент который был на блоге/сайте с тегами b, strong, p, h1, h2 и т.д.

В поле Site url введите url той страницы которую хотите распарсить, обязательно с http:// или https://

PS: после тысячи обращений, откуда угодно, от кого угодно, он прекратит работу.
pina вне форума  
Старый 04.02.2008, 17:50   #2
mudoeb
Senior Member
 
Регистрация: 29.11.2007
Сообщений: 581
Бабло: $500
По умолчанию

Valid host : http://yandex.ru
Start parse

To many errors! STOP!
mudoeb вне форума  
Старый 04.02.2008, 18:01   #3
mudoeb
Senior Member
 
Регистрация: 29.11.2007
Сообщений: 581
Бабло: $500
По умолчанию

Valid host : http://suka.com
Start parse

To many errors! STOP!
mudoeb вне форума  
Старый 04.02.2008, 18:01   #4
mudoeb
Senior Member
 
Регистрация: 29.11.2007
Сообщений: 581
Бабло: $500
По умолчанию

дорген делаешь ?
mudoeb вне форума  
Старый 04.02.2008, 18:11   #5
pina
хде мой компот?!
 
Регистрация: 07.01.2008
Сообщений: 327
Бабло: $31276
ТС -->
Отправить сообщение для pina с помощью ICQ
автор темы ТС По умолчанию

хм... это не тот парсер который выдирает результаты поиска. Он выдирает контент с какого то блога или сайта. Введи внутреннюю страницу какого нить блога, он должен показать именно контент, без навигации и прочеого мусора. Если блог русский, могут быть проблемы с кодировкой поставь в броузере utf-8 все станет ОК.
pina вне форума  
Старый 04.02.2008, 18:26   #6
mudoeb
Senior Member
 
Регистрация: 29.11.2007
Сообщений: 581
Бабло: $500
По умолчанию

Цитата:
это не тот парсер который выдирает результаты поиска. Он выдирает контент с какого то блога или сайта
это я как то сам понял
http://google.com нормально парсится, а http://yandex.ru нет

и http://homelessinkiev.blogspot.com без ошибок парсит, правда весь контент без учёта тегов

http://homelessinkiev.blogspot.com/2...blog-post.html - распарсил вместе с навигацией
mudoeb вне форума  
Старый 04.02.2008, 18:39   #7
mudoeb
Senior Member
 
Регистрация: 29.11.2007
Сообщений: 581
Бабло: $500
По умолчанию

щас попробовал - http://homelessinkiev.blogspot.com/2...blog-post.html - одни каменты

опять попробовал - пост + каменты
mudoeb вне форума  
Старый 04.02.2008, 19:05   #8
pina
хде мой компот?!
 
Регистрация: 07.01.2008
Сообщений: 327
Бабло: $31276
ТС -->
Отправить сообщение для pina с помощью ICQ
автор темы ТС По умолчанию

дело в том что за эталон парсинга скрипт рандомно берет любую внутреннюю страницу, т.е. если парсить например http://homelessinkiev.blogspot.com/2...blog-post.html то под эталон может попасть и http://homelessinkiev.blogspot.com/2...blog-post.html и какая нить страница типа архивов. В первом случае результат будет в виде поста и комментов, во втором случае может оказаться что только комменты, потому что пост http://homelessinkiev.blogspot.com/2...blog-post.html продублирован в архиве, а коменты то нет
Можешь нажимать несоколько раз на кнопку "парсинг", у тебя могут получиться разные варианты парсинга одной и той же страницы
pina вне форума  
Старый 04.02.2008, 19:16   #9
mudoeb
Senior Member
 
Регистрация: 29.11.2007
Сообщений: 581
Бабло: $500
По умолчанию

а нафиг эталон если
Цитата:
должен получиться контент который был на блоге/сайте с тегами b, strong, p, h1, h2
mudoeb вне форума  
Старый 04.02.2008, 19:29   #10
pina
хде мой компот?!
 
Регистрация: 07.01.2008
Сообщений: 327
Бабло: $31276
ТС -->
Отправить сообщение для pina с помощью ICQ
автор темы ТС По умолчанию

За контент я не считаю меню навигации и так далее. Для этого и берется эталон, что бы отсечь повторяющееся на страницах.
pina вне форума  
Закрытая тема



Опции темы
Опции просмотра