Бесплатный многопоточный парсер WebArchive в виде плагина для CheckParams - Форум успешных вебмастеров - GoFuckBiz.com

mlu · 23.08.2011, 23:47

Друзья, Subudayj решил написать бесплатный плагин для программы CheckParams, который позволит делать полные копии сайта из веб-архива (wayback.archive.org). Судя по топикам на форумах, тема достаточно актуальная, а вот работающих решений не так много. Почему CheckParams? Ему очень не хочется изобретать велосипед, и писать свой "многопоточный парсер", когда уже есть готовое решение, которое позволяет очень быстро (в несколько сотен одновременных потоков) выполнять http-запросы.

В связи с этим возникает вопрос: какой способ сохранения сайта вы считает наиболее удобным?
У него пока есть 3 варианта:
1) Сохранение вспомогательных файлов (стили, картинки, музыка и т.д.) на жесткий диск, запись остального контента в базу данных MySQL с указанием архивной даты
2) Сохранение всего контента на жесткий диск "как есть" с разбивкой на папки по архивным датам
3) Сохранение всего контента в виде php-скриптов, с возможностью автоматического подключения кода биржи ссылок (SAPE и т.д.)

На ваш взгляд, какой из вариантов является наиболее оптимальным? Может быть, есть другие варианты сохранения копий?

P.S. Плагин будет бесплатно распространяться вместе с исходными кодами, платить нужно будет только за лицензию для CheckParams. Но в связи с последними изменениями лицензионной политики (http://checkparams.com/ru/node/167), цена лицензии будет вполне оправдана функционалом программы - помимо плагинов CheckParams умеет быстро проверять огромное количество сайтов на PR, Тиц, индексирование в поисковых системах и т.д.

Muhomor · 03.10.2011, 15:35

Хотелось бы иметь возможность удаления/добавления определенного кода в тело страницы.

Subudayj · 03.10.2011, 15:44

Цитата:

Сообщение от Muhomor

Хотелось бы иметь возможность удаления/добавления определенного кода в тело страницы.

Каким образом определять место внутри страницы, куда этот код добавлять?

Muhomor · 03.10.2011, 15:52

до/после определенного тега/строчки

Shadefirst · 03.10.2011, 16:10

Цитата:

Сообщение от Muhomor

до/после определенного тега/строчки

Это не проблема сделать сторонними прогами.

БОльшая проблема - это неспособность восстанавливальщика имитировать чпу. Он восстанавливает сайты с чпу очень криво. Это надо дописывать.

Subudayj · 04.10.2011, 18:47

Коллеги, вышла версия 1.02 парсера веб-архива.
Исправлена ошибка при скачивании некоторых сайтов, связанная с ограничением на размер страницы, который был установлен равным 3м мегабайтам. Текущее ограничение - 10 мегабайт.
Скачать новую версию можно здесь.
Для обновления текущей версии 1.01 достаточно заменить файл script-wa-grabber.js в папке scripts на файл из архива.

P.S. В ближайшее время планирую добавить функционал хранения страниц с помощью ModRewrite и скрипта на PHP, что позволит сохранять на жесткий диск копии любых динамических сайтов.

mlu · 14.10.2011, 12:54

Добрый день, к сожалению, Subudayj уехал, оставив меня один на один с непонятным набором исходников, которые при большом желании можно было бы обозвать "новой версией"

В этой версии как раз добавилась поддержка мод-рерайта с пхп и хтаксесом, сохраняются любые динамические сайты.

Ввиду того, что я с работой скрипта до этого не был знаком, пришлось всё самому проверять перед выкладыванием на сайт, дабы сильно не накосячить

Нашёл 2 бага:
1) если в настройках выбирать какие-то пути или директории, то после успешного сохранения настроек сами настройки (диалог) больше не открываются. Приходится перезагружать программу. После перезагрузки всё работает.
2) программа после скачивания не останавливается автоматически. Убедиться в том, что программа всё докачала можно по нулям в статистике в окошке программы в полях requests in queue и processing now.

Думаю Subudayj исправит их, когда вернётся, а может быть даже и я что-то смогу починить.

Сам граббер версии 1.03 выложил тут: http://checkparams.com/ru/download

Subudayj · 17.11.2011, 01:50

Всем привет!
Вышла очередная версия граббера - в ней исправлено несколько ошибок, которые могли приводить к скачиванию не всех версий сохраненных страниц.
Как обычно, новую версию можно бесплатно скачать здесь.

vix · 19.11.2011, 05:09

после парсинга вебархива,
как восстановить прежнюю структуру(имена страниц-папок), чтоб понятно было редактировать страницы и тп ?

как вариант спарсить сайт заново из веба...

Subudayj · 19.11.2011, 12:01

Цитата:

Сообщение от vix

после парсинга вебархива,
как восстановить прежнюю структуру(имена страниц-папок), чтоб понятно было редактировать страницы и тп ?

как вариант спарсить сайт заново из веба...

Во время работы в папках создается файл logs.txt, в который записывается имя изначального файла, и его мд5-хэш.
Если кому-то нужно, то могу подумать на тему создания итогового "дерева" с оригинальными именами файлов в отдельном файле.

vix · 19.11.2011, 20:14

было бы не плохо