Форум успешных вебмастеров - GoFuckBiz.com

  Форум успешных вебмастеров - GoFuckBiz.com > Бизнес-решения > Скрипты, программы и технические решения
Дата
USD/RUB58.7920
BTC/USD0.0000
Скрипты, программы и технические решения Обсуждаем скрипты, программы и новые технологии.

Закрытая тема
Опции темы Опции просмотра
Старый 04.10.2008, 00:39   #1
Maximus325
Технодаун
 
Аватар для Maximus325
 
Регистрация: 11.05.2007
Сообщений: 10,038
Бабло: $1443440
По умолчанию Парсер который все парсит, не могу тему найти

Я наверное креведко, не могу тему найти опять.
Где то месяц-два назад чел выкладывал фришный парсер html страниц, который можно настроить самостоятельно на любой список ссылок. Никто не помнит где это было и как называлось?
__________________
ноу криминалити ин раша
Maximus325 вне форума  
Старый 04.10.2008, 00:53   #2
D007
саловер
 
Аватар для D007
 
Регистрация: 17.04.2007
Сообщений: 3,137
Бабло: $281155
Отправить сообщение для D007 с помощью ICQ
По умолчанию

http://www.gofuckbiz.com/showthread.php?t=3770
это?
D007 вне форума  
Старый 04.10.2008, 00:57   #3
Maximus325
Технодаун
 
Аватар для Maximus325
 
Регистрация: 11.05.2007
Сообщений: 10,038
Бабло: $1443440
ТС -->
автор темы ТС По умолчанию

Цитата:
Сообщение от D007 Посмотреть сообщение
Не, этот скачал, он парсит только заранее определённые ресы.
Мне надо что бы я мог вытащить в txt ссылки с любой страницы. Точно помню кто-то выкладывал.
__________________
ноу криминалити ин раша
Maximus325 вне форума  
Старый 04.10.2008, 00:59   #4
D007
саловер
 
Аватар для D007
 
Регистрация: 17.04.2007
Сообщений: 3,137
Бабло: $281155
Отправить сообщение для D007 с помощью ICQ
По умолчанию

хз
D007 вне форума  
Старый 04.10.2008, 01:20   #5
solar
Senior Member
 
Регистрация: 04.04.2007
Сообщений: 607
Бабло: $7700
По умолчанию

в файрфоксе есть плугин web developer, там есть ф-я сдампить ссылки.

а вообще вот тебе скрипт на перле, надо тока поставить пару модулей

Код:
#!/usr/bin/perl -w
# xurl - extract unique, sorted list of links from URL
use HTML::LinkExtor;
use LWP::Simple;
require LWP::UserAgent;

my $in = shift || die("Usage: $0 file|http://site");

if ($in =~ /^http/) {
    $parser = HTML::LinkExtor->new(undef, $in);
    $parser->parse(doget($in))->eof;
    @links = $parser->links;
    foreach $linkarray (@links) {
        my @element  = @$linkarray;
        my $elt_type = shift @element;
        while (@element) {
            my ($attr_name , $attr_value) = splice(@element, 0, 2);
            $seen{$attr_value}++;
        }
    }
    for (sort keys %seen) { print $_, "\n" }
} else {
    open I, "<$in" || die("Cant open $in: $!\n");
    undef $/;
    my $inf = <I>;
    while ($inf =~ /(http[^>" ]+)/sgi) {
        print $1."\n";
    }
}

sub doget {
    my $ua = LWP::UserAgent->new(
        agent   => "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
        );
    $ua->timeout(10);
    $ua->env_proxy;
    my $response = $ua->get($_[0]);
    if ($response->is_success) {
        return $response->content;  # or whatever
    }
    else {
        die $response->status_line;
    }
}
solar вне форума  
Старый 04.10.2008, 01:26   #6
Maximus325
Технодаун
 
Аватар для Maximus325
 
Регистрация: 11.05.2007
Сообщений: 10,038
Бабло: $1443440
ТС -->
автор темы ТС По умолчанию

Цитата:
Сообщение от solar Посмотреть сообщение
в файрфоксе есть плугин web developer, там есть ф-я сдампить ссылки.
Это да им пока и пользуюсь, но не удобно когда страниц много
Цитата:
Сообщение от solar Посмотреть сообщение
а вообще вот тебе скрипт на перле, надо тока поставить пару модулей
Спасиб пойду ковырять
__________________
ноу криминалити ин раша
Maximus325 вне форума  
Старый 04.10.2008, 09:28   #7
medar
кодер-энтузиаст
 
Аватар для medar
 
Регистрация: 04.04.2007
Адрес: Джамайка
Сообщений: 3,410
Бабло: $447120
По умолчанию

Учи php с регулярками. Пара дней мучений - зато потом любой парсер напишешь.
medar вне форума