Имеется ли готовое решение которое может:
1) выпарсить целиком сайт на 10-50к страниц
2) очистить текст от html тэгов
3) по всем страницам провести анализ частотности ключей (длиной от 1 до 5-6 слов). Инными словами - подсчитать сколько раз каждый ключ встречается в рамках всего сайта.
Первые 2 шага можно выполнить с помощью Зенки, но вот шаг 3 - вряд ли.
Готовых решений не видел, но решается задача в таком виде просто.
Есть нюансы, например, ключи могут встречаться в атрибутах html-тэгов, которые ты собираешься чистить, или текст с ключами может вставляться js, это тоже индексируется.