Форум успешных вебмастеров - GoFuckBiz.com

  Форум успешных вебмастеров - GoFuckBiz.com > Бизнес-решения > Скрипты, программы и технические решения
Дата
USD/RUB58.7570
BTC/USD0.0000
Скрипты, программы и технические решения Обсуждаем скрипты, программы и новые технологии.

Закрытая тема
Опции темы Опции просмотра
Старый 10.01.2008, 00:06   #1
bers99
PR 10
 
Аватар для bers99
 
Регистрация: 12.10.2007
Сообщений: 326
Бабло: $7350
Cool Agress Parser - Универсальный Парсер

Agress Parser
Сегодня я расскажу как заточить Agress Parser под парсинг разных ресурсов.
В папке search находяться файлы настроек для парсинга (Google.txt Yahoo.txt и т.д.)
AbsoluteUrl- это первый урл на который зайдет парсер, макроподстановкой {REQUEST} можно подставить запрос.
UntilTextAfter-<a href=”{TEXT}” это то что парситься, то есть парсер выдерет все между <a href=” и “.
UntilNextLinkAfter-<a href="{NEXTLINK}" Ссылка на следующую страницу
Url- подставляеться перед напарсеным следующим урлом, то есть если напарсеный урл неполный например /search.php=asdf, то сюда нужно написать http://google.com.
Pattern-{TEXT}{BLACKWORD(www.yahoo.com/|%25} - Убрать строки содержащие такие знаки, то есть www.yahoo.com/ и %25

Вот настройки для парсера Yahoo Site Explorer (там можно парсить беклинки конкурентов) :
url-
AbsoluteUrl-http://siteexplorer.search.yahoo.com/advsearch?p={REQUEST}&bwm=i&bwmo=d&bwmf=u
UntilTextAfter-<a class="yschttl" href="{TEXT}"
UntilNextLinkAfter-<a id="yschnxt" href="{NEXTLINK}"
Pattern-{TEXT}

А вот парсер Yahoo :
AbsoluteUrl-http://search.yahoo.com/search?ei=UTF-8&fr=sfp&p={REQUEST}{system\topdomains.txt}&fspl=1 &n=100
UntilTextAfter-/**http%3a//{TEXT}"
UntilNextLinkAfter-<a id="pg-next" class="pg" href="{NEXTLINK}">
Pattern-{TEXT}{BLACKWORD(%25|www.yahoo.com/|my.yahoo.com/|mail.yahoo.com/|help.yahoo.com/help/us/ysearch/|tools.search.yahoo.com/about/forsearchers.html|education.yahoo.com/reference/dictionary/search%3fp=article|education.yahoo.com/reference/dictionary/search%3fp=intext|education.yahoo.com/reference/dictionary/search%3fp=article|/search/cache)}
Url-http://

Надеюсь это кому то пригодится На этой основе можно сделать парсер других поисковиков.

Автор статьи : BeRsERk

ЗЫ выкладываю здесь, а не на своём блоге, потому что при посте блогер выдаёт ошибки, а если игнорировать их, то получится бред
__________________
Я вернулся.
bers99 вне форума