ну я не претендую на что то, это вообще пример из книги:
берем простой скрипт на перле (ниже)
надо только установить пару модулей выполнив команды
cpan -i HTML::LinkExtor и cpan -i LWP::Simple либо пнув админа.
тестим скрипт perl xurl.pl
http://yandex.ru, если не работает, значит нет модулей или перла.
берем урлы и кладем в файл urls.txt 1 на строку
запускаем в bash
for u in `cat urls.txt`; do perl xurl.pl $u >> output.txt; done
Код:
#!/usr/local/bin/perl
# xurl - extract unique, sorted lists of links from URL
use HTML::LinkExtor;
use LWP::Simple;
$base_url = shift;
$parser = HTML::LinkExtor->new(undef, $base_url);
$parser->parse(get($base_url))->eof;
@links = $parser->links;
foreach $linkarray (@links) {
local(@element) = @$linkarray;
local($elt_type) = shift @element;
while (@element) {
local($attr_name, $attr_value) = splice (@element, 0, 2);
$seen{$attr_value}++;
}
}
for (sort keys %seen) { print $_, "\n"}