Бесплатный многопоточный парсер WebArchive в виде плагина для CheckParams - Форум успешных вебмастеров - GoFuckBiz.com - Страница 3
 
 
Форум успешных вебмастеров - GoFuckBiz.com

  Форум успешных вебмастеров - GoFuckBiz.com > Разное > Объявления о покупке/продаже товаров и услуг
Дата
USD/RUB88.6852
BTC/USD68545.0979
Объявления о покупке/продаже товаров и услуг Также в этом разделе следует размещать и предложения о сотрудничестве.

Закрытая тема
Опции темы Опции просмотра
Старый 23.08.2011, 23:47
Start Post: Бесплатный многопоточный парсер WebArchive в виде плагина для CheckParams 
  #21
mlu
Senior Member
 
Аватар для mlu
 
Регистрация: 17.02.2011
Сообщений: 153
Бабло: $26940
Отправить сообщение для mlu с помощью ICQ
По умолчанию

Друзья, Subudayj решил написать бесплатный плагин для программы CheckParams, который позволит делать полные копии сайта из веб-архива (wayback.archive.org). Судя по топикам на форумах, тема достаточно актуальная, а вот работающих решений не так много. Почему CheckParams? Ему очень не хочется изобретать велосипед, и писать свой "многопоточный парсер", когда уже есть готовое решение, которое позволяет очень быстро (в несколько сотен одновременных потоков) выполнять http-запросы.

В связи с этим возникает вопрос: какой способ сохранения сайта вы считает наиболее удобным?
У него пока есть 3 варианта:
1) Сохранение вспомогательных файлов (стили, картинки, музыка и т.д.) на жесткий диск, запись остального контента в базу данных MySQL с указанием архивной даты
2) Сохранение всего контента на жесткий диск "как есть" с разбивкой на папки по архивным датам
3) Сохранение всего контента в виде php-скриптов, с возможностью автоматического подключения кода биржи ссылок (SAPE и т.д.)

На ваш взгляд, какой из вариантов является наиболее оптимальным? Может быть, есть другие варианты сохранения копий?

P.S. Плагин будет бесплатно распространяться вместе с исходными кодами, платить нужно будет только за лицензию для CheckParams. Но в связи с последними изменениями лицензионной политики (http://checkparams.com/ru/node/167), цена лицензии будет вполне оправдана функционалом программы - помимо плагинов CheckParams умеет быстро проверять огромное количество сайтов на PR, Тиц, индексирование в поисковых системах и т.д.
mlu вне форума  
Старый 22.11.2011, 04:55   #22
vix
Senior Member
 
Аватар для vix
 
Регистрация: 23.04.2007
Сообщений: 234
Бабло: $68450
По умолчанию

Subudayj, как в восстановленый контент внести изменения (ссылки-код адсенс и итп..)?
и хотелось бы восстанавливать структуру прошлую..
отпиши в пм свои контакты
__________________
vix вне форума  
Старый 22.11.2011, 10:44   #23
Subudayj
Member
 
Регистрация: 25.05.2011
Сообщений: 58
Бабло: $10870
По умолчанию

Цитата:
Сообщение от vix Посмотреть сообщение
Subudayj, как в восстановленый контент внести изменения (ссылки-код адсенс и итп..)?
и хотелось бы восстанавливать структуру прошлую..
отпиши в пм свои контакты
Контакты в readme.txt есть
Структуру прошлую восстановить в данном методе сохранения невозможно. Связано это с символами, которые не могут быть в имени файла в Windows - всякие там ? и т.д.
Ссылки, код адсенс и т.д. можно подключать через index.php, если есть навыки программирования
Subudayj вне форума  
Старый 08.03.2012, 18:04   #24
mlu
Senior Member
 
Аватар для mlu
 
Регистрация: 17.02.2011
Сообщений: 153
Бабло: $26940
ТС -->
Отправить сообщение для mlu с помощью ICQ
автор темы ТС По умолчанию

Появилась новая версия граббера. Исправлена некорректная обработка списка сохраненных копий страницы. Ошибка проявлялась на некоторых сайтах.

http://checkparams.com/ru/download
mlu вне форума