Бесплатный многопоточный парсер WebArchive в виде плагина для CheckParams - Форум успешных вебмастеров

mlu · 23.08.2011, 23:47

Друзья, Subudayj решил написать бесплатный плагин для программы CheckParams, который позволит делать полные копии сайта из веб-архива (wayback.archive.org). Судя по топикам на форумах, тема достаточно актуальная, а вот работающих решений не так много. Почему CheckParams? Ему очень не хочется изобретать велосипед, и писать свой "многопоточный парсер", когда уже есть готовое решение, которое позволяет очень быстро (в несколько сотен одновременных потоков) выполнять http-запросы.

В связи с этим возникает вопрос: какой способ сохранения сайта вы считает наиболее удобным?
У него пока есть 3 варианта:
1) Сохранение вспомогательных файлов (стили, картинки, музыка и т.д.) на жесткий диск, запись остального контента в базу данных MySQL с указанием архивной даты
2) Сохранение всего контента на жесткий диск "как есть" с разбивкой на папки по архивным датам
3) Сохранение всего контента в виде php-скриптов, с возможностью автоматического подключения кода биржи ссылок (SAPE и т.д.)

На ваш взгляд, какой из вариантов является наиболее оптимальным? Может быть, есть другие варианты сохранения копий?

P.S. Плагин будет бесплатно распространяться вместе с исходными кодами, платить нужно будет только за лицензию для CheckParams. Но в связи с последними изменениями лицензионной политики (http://checkparams.com/ru/node/167), цена лицензии будет вполне оправдана функционалом программы - помимо плагинов CheckParams умеет быстро проверять огромное количество сайтов на PR, Тиц, индексирование в поисковых системах и т.д.

~~maxtrade~~ · 24.08.2011, 00:06

Цитата:

Сообщение от mlu

Судя по топикам на форумах, тема достаточно актуальная, а вот работающих решений не так много

Тема и правда актуальная, было бы хорошо, если будет бесплатное решение.

Насчет того, как сохранять сайт - думаю достаточно просто сохранять html страницы + файлы в отдельную папку (картинки, стили, скрипты и прочее)
То есть склоняюсь больше ко 2 варианту

Цитата:

Сообщение от mlu

2) Сохранение всего контента на жесткий диск "как есть" с разбивкой на папки по архивным датам

Для простого восстановления этого вполне достаточно, чем мучиться с мускулом

1 и 3 варианты - слишком замудренные, их правильно было бы реализовывать под каждый движок отдельно (wp, drupal) - это уже пусть будет платная фича.

inkubus · 24.08.2011, 00:11

Вооот, это я понимаю цены.

Второй вариант наиболее простой, а значит будет более востребован.

Subudayj · 24.08.2011, 00:17

Цитата:

Сообщение от maxtrade

Насчет того, как сохранять сайт - думаю достаточно просто сохранять html страницы + файлы в отдельную папку (картинки, стили, скрипты и прочее)
То есть склоняюсь больше ко 2 варианту

Знаете, мне этот вариант тоже нравится, но есть несколько "но":
1) некоторые файлы не удастся сохранить в Windows из-за специфических символов
2) каким образом разделять разные версии сайта (с течением времени сайт ведь может достаточно сильно различаться), если хранить все в одной папке?

just4fun · 24.08.2011, 00:20

тож плюсану за второй вариант

inkubus · 24.08.2011, 00:24

Цитата:

Сообщение от Subudayj

2) каким образом разделять разные версии сайта (с течением времени сайт ведь может достаточно сильно различаться), если хранить все в одной папке?

как вариант по разным папкам за разные даты

Subudayj · 24.08.2011, 15:22

Еще могут быть проблемы со спец-символами в именах страниц и файлов, которые допустимы в Unix, но невозможны в Windows. Но, в принципе, можно это обойти изменением имени файла и созданием правил ModRewrite.

Спасибо всем за отклик, тогда на данный момент остановлюсь на варианте сохранения всего контента на жесткий диск.

Subudayj · 03.10.2011, 01:07

Коллеги, хочу представить вашему вниманию первую версию парсера веб-архива (web.archive.org) - бесплатного модуля для CheckParams.
Для успешной работы модуля необходимо выполнить следующие действия:

Разархивировать модуль в папку с программой CheckParams
Убедиться, что версия CheckParams не ниже 1.267
При необходимости скачать новую версию CheckParams (http://checkparams.com/ru/download). Для обновления достаточно заменить файл CheckParams.exe на новую версию
Запустить парсер через файл run-wa-grabber.bat
После запуска программы нажать на кнопку Settings для настройки параметров проверки
В настройках на вкладке Main необходимо:
a. Задать число потоков парсинга (Threads count)
b. Выбрать файл с доменами, копии которых нужно получить
c. Отредактировать содержимое файла с доменами (одна строка - один домен, домен должен быть записан в виде domain.com)
d. Выбрать директорию, в которой будут сохранены результаты (для каждого домена создается своя поддиректория)
e. Выбрать, будут ли использоваться прокси для парсинга веб-архива
В настройках на вкладке Proxy необходимо прописать используемые прокси (если выбрана проверка через прокси):
a. Указать тип (если тип заранее неизвестен, выбрать Auto)
b. Вставить ссылку на веб-страницу со списком прокси (например, http://proxy.com)
c. Или выбрать файл на локальном компьютере, в котором содержится список прокси
Сохранить настройки, нажав на кнопку Save & Close
Запустить парсинг нажатием на кнопку Start:
Копии сайтов из веб-архива сохраняются по папкам согласно году их парсинга, то есть результаты будут сохранены в папки вида: domain1.com/2004, domain1.com/2005 и т.д.

Парсер можно скачать здесь.

P.S. Друзья, любые ваши замечания и пожелания приветствуются, это всего лишь первая версия

Shadefirst · 03.10.2011, 15:18

качать-качает, но выкачало исходник вместе с шапкой вебархива:

Subudayj · 03.10.2011, 15:28

Цитата:

Сообщение от Shadefirst

качать-качает, но выкачало исходник вместе с шапкой вебархива:

Можете пример домена в личку кинуть, проверю?
Ошибки возможны, на то она и первая версия.