Бесплатный многопоточный парсер WebArchive в виде плагина для CheckParams - Форум успешных вебмастеров - GoFuckBiz.com
 
 
Форум успешных вебмастеров - GoFuckBiz.com

  Форум успешных вебмастеров - GoFuckBiz.com > Разное > Объявления о покупке/продаже товаров и услуг
Дата
USD/RUB93.4409
BTC/USD63499.9477
Объявления о покупке/продаже товаров и услуг Также в этом разделе следует размещать и предложения о сотрудничестве.

Закрытая тема
Опции темы Опции просмотра
Старый 23.08.2011, 23:47   #1
mlu
Senior Member
 
Аватар для mlu
 
Регистрация: 17.02.2011
Сообщений: 153
Бабло: $26940
Отправить сообщение для mlu с помощью ICQ
По умолчанию Бесплатный многопоточный парсер WebArchive в виде плагина для CheckParams

Друзья, Subudayj решил написать бесплатный плагин для программы CheckParams, который позволит делать полные копии сайта из веб-архива (wayback.archive.org). Судя по топикам на форумах, тема достаточно актуальная, а вот работающих решений не так много. Почему CheckParams? Ему очень не хочется изобретать велосипед, и писать свой "многопоточный парсер", когда уже есть готовое решение, которое позволяет очень быстро (в несколько сотен одновременных потоков) выполнять http-запросы.

В связи с этим возникает вопрос: какой способ сохранения сайта вы считает наиболее удобным?
У него пока есть 3 варианта:
1) Сохранение вспомогательных файлов (стили, картинки, музыка и т.д.) на жесткий диск, запись остального контента в базу данных MySQL с указанием архивной даты
2) Сохранение всего контента на жесткий диск "как есть" с разбивкой на папки по архивным датам
3) Сохранение всего контента в виде php-скриптов, с возможностью автоматического подключения кода биржи ссылок (SAPE и т.д.)

На ваш взгляд, какой из вариантов является наиболее оптимальным? Может быть, есть другие варианты сохранения копий?

P.S. Плагин будет бесплатно распространяться вместе с исходными кодами, платить нужно будет только за лицензию для CheckParams. Но в связи с последними изменениями лицензионной политики (http://checkparams.com/ru/node/167), цена лицензии будет вполне оправдана функционалом программы - помимо плагинов CheckParams умеет быстро проверять огромное количество сайтов на PR, Тиц, индексирование в поисковых системах и т.д.
mlu вне форума  
Старый 24.08.2011, 00:06   #2
maxtrade
Ебланнед
 
Регистрация: 12.02.2011
Адрес: -> Ower
Сообщений: 1,196
Бабло: $159385
По умолчанию

Цитата:
Сообщение от mlu
Судя по топикам на форумах, тема достаточно актуальная, а вот работающих решений не так много
Тема и правда актуальная, было бы хорошо, если будет бесплатное решение.

Насчет того, как сохранять сайт - думаю достаточно просто сохранять html страницы + файлы в отдельную папку (картинки, стили, скрипты и прочее)
То есть склоняюсь больше ко 2 варианту

Цитата:
Сообщение от mlu
2) Сохранение всего контента на жесткий диск "как есть" с разбивкой на папки по архивным датам
Для простого восстановления этого вполне достаточно, чем мучиться с мускулом

1 и 3 варианты - слишком замудренные, их правильно было бы реализовывать под каждый движок отдельно (wp, drupal) - это уже пусть будет платная фича.
__________________
Start earn with Alcuda LTD! Up to $120 per each paid order
maxtrade вне форума  
Старый 24.08.2011, 00:11   #3
inkubus
Senior Member
 
Аватар для inkubus
 
Регистрация: 11.02.2010
Сообщений: 928
Бабло: $176835
По умолчанию

Вооот, это я понимаю цены.

Второй вариант наиболее простой, а значит будет более востребован.
inkubus вне форума  
Старый 24.08.2011, 00:17   #4
Subudayj
Member
 
Регистрация: 25.05.2011
Сообщений: 58
Бабло: $10870
По умолчанию

Цитата:
Сообщение от maxtrade Посмотреть сообщение
Насчет того, как сохранять сайт - думаю достаточно просто сохранять html страницы + файлы в отдельную папку (картинки, стили, скрипты и прочее)
То есть склоняюсь больше ко 2 варианту
Знаете, мне этот вариант тоже нравится, но есть несколько "но":
1) некоторые файлы не удастся сохранить в Windows из-за специфических символов
2) каким образом разделять разные версии сайта (с течением времени сайт ведь может достаточно сильно различаться), если хранить все в одной папке?
Subudayj вне форума  
Старый 24.08.2011, 00:20   #5
just4fun
Senior Member
 
Аватар для just4fun
 
Регистрация: 01.08.2010
Сообщений: 1,169
Бабло: $215754
По умолчанию

тож плюсану за второй вариант
just4fun вне форума  
Старый 24.08.2011, 00:24   #6
inkubus
Senior Member
 
Аватар для inkubus
 
Регистрация: 11.02.2010
Сообщений: 928
Бабло: $176835
По умолчанию

Цитата:
Сообщение от Subudayj Посмотреть сообщение
2) каким образом разделять разные версии сайта (с течением времени сайт ведь может достаточно сильно различаться), если хранить все в одной папке?
как вариант по разным папкам за разные даты
inkubus вне форума  
Старый 24.08.2011, 15:22   #7
Subudayj
Member
 
Регистрация: 25.05.2011
Сообщений: 58
Бабло: $10870
По умолчанию

Еще могут быть проблемы со спец-символами в именах страниц и файлов, которые допустимы в Unix, но невозможны в Windows. Но, в принципе, можно это обойти изменением имени файла и созданием правил ModRewrite.

Спасибо всем за отклик, тогда на данный момент остановлюсь на варианте сохранения всего контента на жесткий диск.
Subudayj вне форума  
Старый 03.10.2011, 01:07   #8
Subudayj
Member
 
Регистрация: 25.05.2011
Сообщений: 58
Бабло: $10870
По умолчанию

Коллеги, хочу представить вашему вниманию первую версию парсера веб-архива (web.archive.org) - бесплатного модуля для CheckParams.
Для успешной работы модуля необходимо выполнить следующие действия:
  1. Разархивировать модуль в папку с программой CheckParams
  2. Убедиться, что версия CheckParams не ниже 1.267
  3. При необходимости скачать новую версию CheckParams (http://checkparams.com/ru/download). Для обновления достаточно заменить файл CheckParams.exe на новую версию
  4. Запустить парсер через файл run-wa-grabber.bat
  5. После запуска программы нажать на кнопку Settings для настройки параметров проверки
  6. В настройках на вкладке Main необходимо:
    a. Задать число потоков парсинга (Threads count)
    b. Выбрать файл с доменами, копии которых нужно получить
    c. Отредактировать содержимое файла с доменами (одна строка - один домен, домен должен быть записан в виде domain.com)
    d. Выбрать директорию, в которой будут сохранены результаты (для каждого домена создается своя поддиректория)
    e. Выбрать, будут ли использоваться прокси для парсинга веб-архива
  7. В настройках на вкладке Proxy необходимо прописать используемые прокси (если выбрана проверка через прокси):
    a. Указать тип (если тип заранее неизвестен, выбрать Auto)
    b. Вставить ссылку на веб-страницу со списком прокси (например, http://proxy.com)
    c. Или выбрать файл на локальном компьютере, в котором содержится список прокси
  8. Сохранить настройки, нажав на кнопку Save & Close
  9. Запустить парсинг нажатием на кнопку Start:
  10. Копии сайтов из веб-архива сохраняются по папкам согласно году их парсинга, то есть результаты будут сохранены в папки вида: domain1.com/2004, domain1.com/2005 и т.д.

Парсер можно скачать здесь.

P.S. Друзья, любые ваши замечания и пожелания приветствуются, это всего лишь первая версия
Subudayj вне форума  
Старый 03.10.2011, 15:18   #9
Shadefirst
Senior Member
 
Аватар для Shadefirst
 
Регистрация: 27.01.2011
Сообщений: 382
Бабло: $89857
По умолчанию

качать-качает, но выкачало исходник вместе с шапкой вебархива:
Shadefirst вне форума  
Старый 03.10.2011, 15:28   #10
Subudayj
Member
 
Регистрация: 25.05.2011
Сообщений: 58
Бабло: $10870
По умолчанию

Цитата:
Сообщение от Shadefirst Посмотреть сообщение
качать-качает, но выкачало исходник вместе с шапкой вебархива:
Можете пример домена в личку кинуть, проверю?
Ошибки возможны, на то она и первая версия.
Subudayj вне форума