Всем привет.
Решил разобраться с некоторыми проектами, которые в данный момент не в приоритете.
В общем, неспешно продаю
сервис для поиска сайтов по общим признакам.
Под признаками подразумевается:
- id Google Adsense и Analytics
- id счетчика liveinternet
- домен статистики piwik
- домен openx
- id партнерки amazon
- utm меткам
- CMS
- id соц. кнопок addthis
- имена cookie
- и др.
Из того, что нигде не встречал:
- домен, с которого подгружается javascript, iframe
- имена полей форм
- редиректы с сайта/на сайт
Все признаки разбиты по группам:
- Реклама - все, чем монетизируется сайт.
- CMS,CMF и т.д. - системы управления сайтом, web платформы
- Аналитика - системы статистики, аналитики и оценки конверсии
- Технические параметры - виджеты различных серисов (vk, facebook, disqus, recaptcha и др.), наличие сайта в вебмастерских панелях google, yandex, bing и прочие элементы, относящиеся к функционированию сайта
- Cookies - cookie, устанавливаемые сайтом при посещении
- Элементы HTML - домен iframe, javascript и др.
- Редиректы
Статистика признаков по группам:
- Реклама - 551 рекламных элементов
- CMS,CMF и т.д. - 94
- Аналитика - 62
- Технические параметры - 79
На каждый из признаков от 1 до нескольких паттернов для детекта (всего 1447 паттернов).
Например, для Google Analytics - 7 различных паттернов для поиска id аналитикса.
По piwik - 9, включая обфусцированные версии, когда домен получается в результате сложения строк 'piw' + 'ikdoma' + 'in.com'
и т.д.
Кроме результатов последней проверки можно смотреть историю. Данные по некоторым сайтам собираются с 2012.
Немного технических подробностей.
Web работает на фреймворке django.
Серверный бот первоначально был на python, но потом был переписан на golang, что дало 10x прирост скорости и смешном по сравнению с python потреблением памяти(так что, +1 к golang для своего серверного, сетевого софта).
Немного примеров, как можно использовать сервис кроме стандартного поиска по Google Analytics, Adsense и пр.
* Поиск лендингов.
Например, есть лендинг finkapro.ru. Вбиваем в поиск домен
finkapro.ru и смотрим на имена полей форм.
email, name - эти имена слишком общие и могут встречаться в обычных формах. whatForm - а вот это имя более "уникальное". Кликаем по нему и получаем список сайтов (в данном случае лендингов), где это имя встречается.
* Часто вебмастера для удобного управления рекламой, слива трафика подгружают на страницы свой javascript код с домена-тдски. По данному домену можно найти остальные сайты/доры одного владельца.
* Поиск сайтов на
wordpress, на
joomla и пр.
* На сайтах, на которых стоит код тизернета, есть параметр обозначающий id площадки. Посмотрев этот id, можно отобрать нужные сайты для блеклиста/вайтлиста (не знаю как у тизернета устроена фильтрация, не покупал там траф).
Пример 1 Пример 2 Пример 3
Контакты:
email,jabber:
[email protected]