Как вы скачиваете сайты из Web Archive? - Форум успешных вебмастеров - GoFuckBiz.com - Страница 2
 
 
Форум успешных вебмастеров - GoFuckBiz.com

  Форум успешных вебмастеров - GoFuckBiz.com > Бизнес-решения > Скрипты, программы и технические решения
Дата
USD/RUB89.2589
BTC/USD68674.6194
Скрипты, программы и технические решения Обсуждаем скрипты, программы и новые технологии.

Закрытая тема
Опции темы Опции просмотра
Старый 08.04.2016, 17:54
Start Post: Как вы скачиваете сайты из Web Archive? 
  #11
NeTalant
Senior Member
 
Регистрация: 23.01.2010
Сообщений: 289
Бабло: $109770
Question

Всем привет. Подскажите кио знает хорошие программы/сервисы где можно быстро без тупняков выкачивать сайты? У сайтов может быть большое количество страниц в архиве... Всем спасибо
NeTalant вне форума  
Старый 09.04.2016, 01:48   #12
NeTalant
Senior Member
 
Регистрация: 23.01.2010
Сообщений: 289
Бабло: $109770
ТС -->
автор темы ТС По умолчанию

Давайте сложимся закажем скрипт тогда нормальный
NeTalant вне форума  
Старый 09.04.2016, 11:42   #13
веломан
сыроед
 
Аватар для веломан
 
Регистрация: 01.10.2015
Сообщений: 15,818
Бабло: $1864045
По умолчанию

Цитата:
Сообщение от sliderxxx Посмотреть сообщение
А как вы телепортом и подобным софтом качаете? Там же вебархив кучу своего в каждую страницу сует, и пути меняет. Вообще выкачать-то можно обычным вгетом или курлом, но потом обрабатывать пакетно надо скрипт какой-то все-равно писать. А если скрипт писать, то нафиг и телепорт тогда не нужен.
там в телепорте какие-то были настройки про пути
их можно на относительные править, на локальные, ещё как-то
в вгете тоже дофига настроек
веломан вне форума  
Старый 09.04.2016, 12:43   #14
Sultan
Шучу на половину
 
Аватар для Sultan
 
Регистрация: 23.01.2011
Сообщений: 5,835
Бабло: $1169780
По умолчанию

причем тут пути.. а как без прокси туда попасть)))
он про то, что в кажду html страницу инжектится бар архива..

заказывается проксификатор с переписыванием и чисткой подобного мусора и складыванием в кеш.
ближайшее что можно за основу взять анонимайзеры, клонировщики
Sultan вне форума  
Старый 09.04.2016, 13:48   #15
Creolabs
Tomorrow
 
Аватар для Creolabs
 
Регистрация: 22.01.2013
Адрес: Баден-Баден
Сообщений: 1,450
Бабло: $236030
По умолчанию

Цитата:
Сообщение от NeTalant Посмотреть сообщение
спасибо! опять же винда. опять же на маке надо попробовать запустить)
там на сайте вроде написанно о Маке, В паге даунлоадс есть мак, убунту, линукс и прочее.
__________________

Creolabs вне форума  
Старый 09.04.2016, 14:37   #16
digg
$400
 
Аватар для digg
 
Регистрация: 17.05.2009
Сообщений: 14,022
Бабло: $1906410
Отправить сообщение для digg с помощью ICQ
По умолчанию

Цитата:
Сообщение от sliderxxx Посмотреть сообщение
Попробовал ртулз, все хорошо скачал, даже скрипт с роутингом и плюшками, типа добавления кусков кода во все страницы. Но вот ссылки с хешами (#), я не смог его заставить обрабатывать.

А как вы телепортом и подобным софтом качаете? Там же вебархив кучу своего в каждую страницу сует, и пути меняет. Вообще выкачать-то можно обычным вгетом или курлом, но потом обрабатывать пакетно надо скрипт какой-то все-равно писать. А если скрипт писать, то нафиг и телепорт тогда не нужен.

В ртулз решение с роутингом понравилось.
в любом случае приходится потом прогонять скриптом, чтоб массово на всех страницах менять кучу багов
digg на форуме  
Старый 13.04.2016, 09:24   #17
NiFiga
Member
 
Регистрация: 19.06.2012
Сообщений: 54
Бабло: $12795
По умолчанию

Я массово чищу от мусора регулярками в Зеброиде. Практически на всех страницах сайта почти один и тот же мусор, что спасает. Но у разных сайтов совершенно разный мусор, поэтому универсальный скрипт для любых сайтов - это утопия, к сожалению.
__________________
Domains R Forever
NiFiga вне форума  
Старый 13.04.2016, 10:53   #18
Skyworker
Senior Member
 
Регистрация: 25.12.2013
Сообщений: 6,549
Бабло: $785925
По умолчанию

Мне в сети попадался простой скрипт парсера Вебархива, кому надо найдет. Нормально парсит и сохраняет картинки, вырезая все вставки.
__________________
Надежный и отзывчивый VPS хостинг для серьезных проектов
Проверенная годами пуш партнерка с ежедневными выплатами
Skyworker вне форума  
Старый 13.04.2016, 23:51   #19
cencer
Царь Нью-Джерси
 
Аватар для cencer
 
Регистрация: 18.11.2012
Сообщений: 38
Бабло: $6390
По умолчанию

Да было уже тут, парсится этим http://www.httrack.com/
Но нужны руки, что бы настроить http://superuser.com/questions/53203...chived-website
cencer вне форума  
Старый 14.04.2016, 01:21   #20
sliderxxx
Ебланнед
 
Регистрация: 20.08.2008
Сообщений: 1,064
Бабло: $153400
По умолчанию

Вот вы обычные сайт-скрапперы даете, а если на выкачиваемом сайте расширение у страниц .php, или .asp, ну или .pl. А если у части такое расширение, а у другой части другое. Как это все восстановить?

Ртулз по-моему ахуенно сделали с роутингом. И багов нет никаких. Кроме одного, как я выше писал. Но это мало на каких сайтах встречается. И по деньгам не дорого, если википедию не выкачивать.
sliderxxx вне форума  
Старый 14.04.2016, 02:28   #21
masolit
Senior Member
 
Регистрация: 18.08.2007
Сообщений: 1,094
Бабло: $199375
По умолчанию

https://github.com/hartator/wayback-machine-downloader
masolit вне форума