Форум успешных вебмастеров - GoFuckBiz.com

  Форум успешных вебмастеров - GoFuckBiz.com > Бизнес-решения > Скрипты, программы и технические решения
Дата
USD/RUB59.2470
BTC/USD0.0000
Скрипты, программы и технические решения Обсуждаем скрипты, программы и новые технологии.

Закрытая тема
Опции темы Опции просмотра
Старый 23.02.2012, 00:40   #1
Strikelol
Senior Member
 
Регистрация: 31.03.2011
Сообщений: 3,056
Бабло: $632595
По умолчанию Удалить мусор на сайте

Есть сайт без картинок, но с тегами и с линками на эти картники.
К тому же на этом сайте масса ссылок на несуществующие страницы других сайтов. Как одним махом удалить весь этот мусор?
Strikelol вне форума  
Старый 23.02.2012, 01:33   #2
chesser
автоматизирую интернеты
 
Аватар для chesser
 
Регистрация: 05.07.2009
Адрес: chesser.ru
Сообщений: 3,382
Бабло: $470735
По умолчанию

урлы картинок и теги вырезать не сложно, а проверку существования страниц - это подольше.

алгоритм такой:
1. sed/awk/..-ом вырезаем все ненужные теги
2. тем же способом очищаем от урлов, заканчивающихся на jpg|jpeg|gif|png|...
3. grep-ом собираем все оставшиеся линки, но внешние и складываем их в текстовый файл
4. далее анализируем каждый линк из файла, можно цикл + курл или wget
5. получаем список плохих ссылок и убираем их тем же sed/awk/..-ом

...короче 5-10 строчек баша
__________________
USA и NL серверы и VPS | wiki | блог | Drupal | NginxТДС
Ave, Google, morituri te salutant! © chesser
chesser вне форума  
Старый 23.02.2012, 01:45   #3
Strikelol
Senior Member
 
Регистрация: 31.03.2011
Сообщений: 3,056
Бабло: $632595
ТС -->
автор темы ТС По умолчанию

Я наверно слишком упростил. Но я понимаю как сделать все кроме последнего, как проверить страница жива или нет, и если не жива - удалить.

На самом деле все немного сложней. Нужно не просто взять и удалить все теги которые подходят под параметры.
Есть страница, на которой 20 картинок, 2 из них присутствуют у меня на сайте, на остальные просто стоят ссылки, а картинок нет. Нужно сделать проверку на то есть ли картинка по ссылке, если нету - удалить ссылку и теги.
Причем я не знаю какие там теги, т.к. тысячу страниц сайта изучать не резон.

1) Удалить ссылки на картинки и теги их обрамляющие, при условии что по ссылке ничего нет.
2) Удалить ссыли, если по ссылке нету страницы(внешеней, внутренней)

Я просто искал софт какой-то, мне говорили что есть такое. Хотя если не найду сделаю как ты говоришь, удалю все, оставлю только текст.

PS я просто не понял каким образом сделать проверку на состоянии анализируемой страницы
Strikelol вне форума  
Старый 23.02.2012, 02:37   #4
chesser
автоматизирую интернеты
 
Аватар для chesser
 
Регистрация: 05.07.2009
Адрес: chesser.ru
Сообщений: 3,382
Бабло: $470735
По умолчанию

Цитата:
Сообщение от Strikelol Посмотреть сообщение
PS я просто не понял каким образом сделать проверку на состоянии анализируемой страницы
надо сделать запрос на соответствующий адрес, и проверить ответ сервера. Например, в хедере код ответа не должен быть равен 200 (ну или какие там ответы нужны), плюс можно проверять контент, иногда бывает 200, но контент пустой.

как сделать эту проверку? - вариантов много, можно башем(wget, curl), можно на пхп: file_get_contents, file, fopen, curl_exec и тд, или другие любимые ЯПы.

Без запроса на сам ресурс тут не обойтись
__________________
USA и NL серверы и VPS | wiki | блог | Drupal | NginxТДС
Ave, Google, morituri te salutant! © chesser
chesser вне форума  
Старый 23.02.2012, 03:12   #5
Cookie Monster
prospera
 
Аватар для Cookie Monster
 
Регистрация: 03.01.2009
Сообщений: 865
Бабло: $193208
По умолчанию

тебе надо найти битые ссылки
вот эта программа справится


Сохраняй результат и вычищай найденное другим скриптом.
Cookie Monster вне форума