Толковая база долго собирается. Из личного опыта:
- парсеры гугла(яху, бинг) по признакам
- бот-парсер главных страниц всех сайтов в интернете (-*.gov, -*.mil) и выдирание потенциальных ссылок для проверки
- на уже собраной базе пройтись парсером и собрать ссылки на другие сайты с этой же CMS.
Делал такое для WP. Итог 5М уник сайтов без блогохостингов.
|