Бесплатный многопоточный парсер WebArchive в виде плагина для CheckParams - Форум успешных вебмастеров - GoFuckBiz.com - Страница 2
 
 
Форум успешных вебмастеров - GoFuckBiz.com

  Форум успешных вебмастеров - GoFuckBiz.com > Разное > Объявления о покупке/продаже товаров и услуг
Дата
USD/RUB88.6852
BTC/USD68665.2215
Объявления о покупке/продаже товаров и услуг Также в этом разделе следует размещать и предложения о сотрудничестве.

Закрытая тема
Опции темы Опции просмотра
Старый 23.08.2011, 23:47
Start Post: Бесплатный многопоточный парсер WebArchive в виде плагина для CheckParams 
  #11
mlu
Senior Member
 
Аватар для mlu
 
Регистрация: 17.02.2011
Сообщений: 153
Бабло: $26940
Отправить сообщение для mlu с помощью ICQ
По умолчанию

Друзья, Subudayj решил написать бесплатный плагин для программы CheckParams, который позволит делать полные копии сайта из веб-архива (wayback.archive.org). Судя по топикам на форумах, тема достаточно актуальная, а вот работающих решений не так много. Почему CheckParams? Ему очень не хочется изобретать велосипед, и писать свой "многопоточный парсер", когда уже есть готовое решение, которое позволяет очень быстро (в несколько сотен одновременных потоков) выполнять http-запросы.

В связи с этим возникает вопрос: какой способ сохранения сайта вы считает наиболее удобным?
У него пока есть 3 варианта:
1) Сохранение вспомогательных файлов (стили, картинки, музыка и т.д.) на жесткий диск, запись остального контента в базу данных MySQL с указанием архивной даты
2) Сохранение всего контента на жесткий диск "как есть" с разбивкой на папки по архивным датам
3) Сохранение всего контента в виде php-скриптов, с возможностью автоматического подключения кода биржи ссылок (SAPE и т.д.)

На ваш взгляд, какой из вариантов является наиболее оптимальным? Может быть, есть другие варианты сохранения копий?

P.S. Плагин будет бесплатно распространяться вместе с исходными кодами, платить нужно будет только за лицензию для CheckParams. Но в связи с последними изменениями лицензионной политики (http://checkparams.com/ru/node/167), цена лицензии будет вполне оправдана функционалом программы - помимо плагинов CheckParams умеет быстро проверять огромное количество сайтов на PR, Тиц, индексирование в поисковых системах и т.д.
mlu вне форума  
Старый 03.10.2011, 15:35   #12
Muhomor
простите, lolwto..?
 
Аватар для Muhomor
 
Регистрация: 18.12.2008
Сообщений: 275
Бабло: $73629
Отправить сообщение для Muhomor с помощью ICQ
По умолчанию

Хотелось бы иметь возможность удаления/добавления определенного кода в тело страницы.
__________________
такая подпись запрещена правилами форума
Muhomor вне форума  
Старый 03.10.2011, 15:44   #13
Subudayj
Member
 
Регистрация: 25.05.2011
Сообщений: 58
Бабло: $10870
По умолчанию

Цитата:
Сообщение от Muhomor Посмотреть сообщение
Хотелось бы иметь возможность удаления/добавления определенного кода в тело страницы.
Каким образом определять место внутри страницы, куда этот код добавлять?
Subudayj вне форума  
Старый 03.10.2011, 15:52   #14
Muhomor
простите, lolwto..?
 
Аватар для Muhomor
 
Регистрация: 18.12.2008
Сообщений: 275
Бабло: $73629
Отправить сообщение для Muhomor с помощью ICQ
По умолчанию

до/после определенного тега/строчки
__________________
такая подпись запрещена правилами форума
Muhomor вне форума  
Старый 03.10.2011, 16:10   #15
Shadefirst
Senior Member
 
Аватар для Shadefirst
 
Регистрация: 27.01.2011
Сообщений: 382
Бабло: $89857
По умолчанию

Цитата:
Сообщение от Muhomor Посмотреть сообщение
до/после определенного тега/строчки
Это не проблема сделать сторонними прогами.

БОльшая проблема - это неспособность восстанавливальщика имитировать чпу. Он восстанавливает сайты с чпу очень криво. Это надо дописывать.
Shadefirst вне форума  
Старый 04.10.2011, 18:47   #16
Subudayj
Member
 
Регистрация: 25.05.2011
Сообщений: 58
Бабло: $10870
По умолчанию

Коллеги, вышла версия 1.02 парсера веб-архива.
Исправлена ошибка при скачивании некоторых сайтов, связанная с ограничением на размер страницы, который был установлен равным 3м мегабайтам. Текущее ограничение - 10 мегабайт.
Скачать новую версию можно здесь.
Для обновления текущей версии 1.01 достаточно заменить файл script-wa-grabber.js в папке scripts на файл из архива.

P.S. В ближайшее время планирую добавить функционал хранения страниц с помощью ModRewrite и скрипта на PHP, что позволит сохранять на жесткий диск копии любых динамических сайтов.
Subudayj вне форума  
Старый 14.10.2011, 12:54   #17
mlu
Senior Member
 
Аватар для mlu
 
Регистрация: 17.02.2011
Сообщений: 153
Бабло: $26940
ТС -->
Отправить сообщение для mlu с помощью ICQ
автор темы ТС По умолчанию

Добрый день, к сожалению, Subudayj уехал, оставив меня один на один с непонятным набором исходников, которые при большом желании можно было бы обозвать "новой версией"

В этой версии как раз добавилась поддержка мод-рерайта с пхп и хтаксесом, сохраняются любые динамические сайты.

Ввиду того, что я с работой скрипта до этого не был знаком, пришлось всё самому проверять перед выкладыванием на сайт, дабы сильно не накосячить

Нашёл 2 бага:
1) если в настройках выбирать какие-то пути или директории, то после успешного сохранения настроек сами настройки (диалог) больше не открываются. Приходится перезагружать программу. После перезагрузки всё работает.
2) программа после скачивания не останавливается автоматически. Убедиться в том, что программа всё докачала можно по нулям в статистике в окошке программы в полях requests in queue и processing now.

Думаю Subudayj исправит их, когда вернётся, а может быть даже и я что-то смогу починить.

Сам граббер версии 1.03 выложил тут: http://checkparams.com/ru/download
mlu вне форума  
Старый 17.11.2011, 01:50   #18
Subudayj
Member
 
Регистрация: 25.05.2011
Сообщений: 58
Бабло: $10870
По умолчанию

Всем привет!
Вышла очередная версия граббера - в ней исправлено несколько ошибок, которые могли приводить к скачиванию не всех версий сохраненных страниц.
Как обычно, новую версию можно бесплатно скачать здесь.
Subudayj вне форума  
Старый 19.11.2011, 05:09   #19
vix
Senior Member
 
Аватар для vix
 
Регистрация: 23.04.2007
Сообщений: 234
Бабло: $68450
По умолчанию

после парсинга вебархива,
как восстановить прежнюю структуру(имена страниц-папок), чтоб понятно было редактировать страницы и тп ?

как вариант спарсить сайт заново из веба...
__________________
vix вне форума  
Старый 19.11.2011, 12:01   #20
Subudayj
Member
 
Регистрация: 25.05.2011
Сообщений: 58
Бабло: $10870
По умолчанию

Цитата:
Сообщение от vix Посмотреть сообщение
после парсинга вебархива,
как восстановить прежнюю структуру(имена страниц-папок), чтоб понятно было редактировать страницы и тп ?

как вариант спарсить сайт заново из веба...
Во время работы в папках создается файл logs.txt, в который записывается имя изначального файла, и его мд5-хэш.
Если кому-то нужно, то могу подумать на тему создания итогового "дерева" с оригинальными именами файлов в отдельном файле.
Subudayj вне форума  
Старый 19.11.2011, 20:14   #21
vix
Senior Member
 
Аватар для vix
 
Регистрация: 23.04.2007
Сообщений: 234
Бабло: $68450
По умолчанию

было бы не плохо
__________________
vix вне форума  
Закрытая тема