урлы картинок и теги вырезать не сложно, а проверку существования страниц - это подольше.
алгоритм такой:
1. sed/awk/..-ом вырезаем все ненужные теги
2. тем же способом очищаем от урлов, заканчивающихся на jpg|jpeg|gif|png|...
3. grep-ом собираем все оставшиеся линки, но внешние и складываем их в текстовый файл
4. далее анализируем каждый линк из файла, можно цикл + курл или wget
5. получаем список плохих ссылок и убираем их тем же sed/awk/..-ом
...короче 5-10 строчек баша