Защита сервера от ботов - Форум успешных вебмастеров

chesser · 25.07.2014, 00:52

люблю следить за чужими ботами в логах своих веб-серверов. Порой проскакивают интересные экземпляры и "темы". Но большинство ботов являются нежданными гостями, а порой и опасны для сайта или сервера. Далее я хочу поделиться своими мыслями на эту тему.
Тыкаем на смайлы

Опасности ботов:

1) бот создает нагрузку на сервер, расходуя его ресурсы и, как следствие, сайт/сервер тормозит. (например: все ж "любят" китайского бота от baidu.com, который ставит раком любой сервер, вне зависимости от директив в robots.txt. Его обычно банят первым делом)
2) угроза безопасности - некоторые боты ищут уязвимости на сайтах и, если найдут, хакер поимеет ваш сайт или сервер, а это печально
3) происки конкурентов и другой сбор информации о ваших проектах третьими лицами, например, hrefs/мажестик/etc. Если конкуренты узнают ваши секреты продвижения проекта, они могу получить преимущество.
4) схожие с предыдущим пунктом боты различных правовых организаций, которые выступают за чистоту контента и соблюдения интернет-законов, т.е. копирайт боты, анти-фарма боты, анти-плагиат и тд. Эти боты могут писать письма вашим хостерам и вам по поводу и без повода, создавая лишние неудобства

Согласно моей статистике, хороших ботов, от которых есть польза, гораздо меньше, чем плохих.

Хорошие: боты поисковых компаний(google, yandex, bing) или тех систем, которые осознанно использованы непосредственно в проекте. Например, пробую использовать партнерку от viglink, от них на каждую страницу сайта приходит бот-анализатор...ну пусть ходит, раз так надо. Тоже самое с share-кнопками от addthis.com и тд. Хотя бы я в курсе кто это такие.
Также к хорошим ботам можно отнести те, которые сами ставят dofollow линки на ваш сайт. Если бот ставит ссылки на все сайты подряд без разбору, то по заявлениям гугла, такие ссылки не учитываются в ранжировании, хоть они и dofollow.

Раз хороших ботов меньше, чем плохих, то при их фильтрации логичнее применить "политику белых списков", т.е. блокируем ВСЕХ ботов, кроме хороших из белого списка. Если заранее не знаем этот список, то его сначала надо собрать или взять у коллег.
Если существует риск заблокировать очень нужного бота, который еще не успел попасть в белый список, или если трудно решиться на тотальную блокировку, можно использовать "политику черных списков", т.е. разрешать ВСЕХ ботов, кроме плохих.
У меня пока используется второй вариант, но планирую переход к первому, т.к. статистика показала, что полезных ботов на несколько порядков меньше.

Определение термина "бот"

Признаки бота

Признак - это набор фактов, или набор значений параметров исследуемого веб-клиента, по которым его можно классифицировать на бот/небот.

Я разделяю признаки на:
1) статические, или лучше называть state-признаки, т.е. набор фактов о клиенте без учета времени, без учета его прошлого, _состояние_ веб-клиента здесь и сейчас. Грубо говоря, это набор значений параметров, которые указаны в одной строке лога веб-сервера (nginx/apache). Например:

Цитата:

5.135.18.89 - - [12/Jun/2013:06:15:55 +0400] "GET /phpmyadmin/ HTTP/1.1" 200 13820 "-" "Googlebot/2.1 (+http://www.googlebot.com/bot.html)" "-"

часто достаточно одной такой строки, чтобы сделать вывод о том, что это бот. Например, когда об этом явно написано: "Googlebot/2.1....." (но не всегда, см. дальше)
2) динамические, которые учитывают серии запросов клиента, разделенных во времени, а также запросы других "соседних" веб-клиентов. Например, если веб-клиент по state-признакам классифицировался как небот, но он долбит сервер с частотой 100 запросов в секунду, то скорее всего он бот и простой классификатор ошибся. (Эта часть анализа бот/небот сложна и интересна и можно обсудить потом подробнее. Дальше пишу про первый пункт.)

Боты, путешествующие по сайтам, являются http-клиентами, т.е. речь идет именно о http(s)-протоколе, а раз так, то и факты о боте лежат в источнике (хост, IP-адрес) http-запроса и в его http-заголовке, которым он представляется каждый раз, стучась к нам на сервер. Рассматривая источник запроса и его возможные http-заголовки, можно выделить следующие параметры, из которых формируются state-признаки ботов:
- IP клиента
- http user agent
- http request uri
- http referer
- http cookie
- и другие

Это основные и их достаточно, чтобы обрубить 99% бот-трафика.

Степень наглости ботов.

Политика и цели филтрации бот-трафика

Маршрут ботов и компоненты их анализа

Путь следования запроса от клиента к серверу и обратно:

(1) клиент-хост -> (сквозь каналы и коммутаторы, сетевой уровень) -> (2) сетевой интерфейс сервера (транспортный уровень, tcp/ip) -> (3) ядро ОС (с участием firewall) -> (прикладной уровень, http) -> (4) фронтэнд веб-сервера -> (прикладной уровень, например fastcgi) -> (5) бекэнд веб-сервера -> (fastcgi) -> (6) фронтэнд веб-сервера -> (7) ядро ОС -> (8) сетевой интерфейс -> (9) клиент-хост

В точке (5) "бекэнд веб-сервера" обычно жарче всего. При хайлоад-оптимизациях, стараются минимизировать ее участие при общении с веб-клиентом. А при защите от ботов стараются допускать до сюда только тех, кому оно действительно надо: юзеры, использующие динамические части сайта и сверх-умные боты, которых лучше не обманывать, например, гуглобота можно пускать. Менее хорошим и более тупым ботам достаточно показать кеш из точки (4).

Все вопросы классификации трафика на бот/небот лучше решать в как можно более ранних точках:
(1) хост веб-клиента. Бан хоста будет хорошим решением, если вас долбит один и тот же бот или подсеть, пишите на них абузу, может и выйдет что-то
(2) на сетевом уровне обычно работают железячные анти-ддос защиты и прочее оборудование, недоступное рядовому сервер-арендателю. К тому же, этому оборудованию нужно передать политику классификации на бот/небот, иначе оно не узнает какие боты хорошие, какие плохие. При умной и тонкой фильтрации имхо такие способы не доступны, зато для анти-ддос самое то.
(3) точка приема трафика на сервер и обработка его ОСью. До этого уровня мы (админы) дотянуться можем - можем блокировать прохождение трафика дальше этой точки, т.е. обрубать поток, но для классификации на бот/небот нам доступен только IP, т.к. это транспортный уровень и HTTP-протокол еще не вступил в действие, мы не знаем http-хедеров, т.е. неизвестны ua, referer, request uri и тд. Если есть заранее подготовленные белые/черные списки IP, то в этом месте можно их применить. Один из вариантов фильтрации трафика - заранее готовить и постоянно обновлять эти списки.
(4) на веб-фронтэнде уже известно о веб-клиенте все, что нужно, осталось проанализировать значения параметров и соотнести их со state-признаками и классифицировать на бот/небот. Обычно, этот анализ происходит внутри конфига веб-фронтэнда, пропускать его в следующую точку (5) на бекэнд крайне не желательно, но при сложном бот-анализе можно. Самый просто пример анализа параметра Http User Agent: ищем с помощью regexp стоп слова: php, perl, python, baidu, ahrefs, ezooms, checkparams etc - если нашли, значит это плохой бот.

Можно в точках (4) и (5) подготовить черный список ip, принадлежащих плохим ботам, и отправить его на уровень (3) в файервол, который будет блокировать все последующие запросы с этих IP. Придется постоянно следить за базой IP, желательно автоматически и в реальном времени.

Отступление про апач.

Что делать с обнаруженным ботом?

Профит от фильтрации ботов

далее еще будет практическая часть.....

chesser · 25.07.2014, 02:05

Мой опыт фильтрации веб-ботов средствами nginx.

На каждом сервере под веб-проекты установлен nginx, а его конфиг находится в git-репозитории, он общий для всех серверов. Индивидуальные настройки каждого хоста/домена хранятся в отдельно папке, которая не входит в git-репозиторий.

Структура примерно такая файлов:

Конфиг nginx начинается с файла nginx/nginx.conf:

PHP код:


			
user nginx;

worker_processes  4;
worker_rlimit_nofile 100000;

error_log  /var/log/nginx/error.log  notice;
pid        /var/run/nginx.pid;

events {
    worker_connections  1024;
    use epoll;
}

http {
    include       mime.types;
    default_type  application/octet-stream;

    log_format  main  '$remote_addr - $remote_user [$time_local] "$request" '
                      '$status $body_bytes_sent "$http_referer" '
                      '"$http_user_agent" "$http_x_forwarded_for"';

    sendfile        on;
    tcp_nopush      on;
    tcp_nodelay     on;
    server_tokens   off;

    gzip            on;
    gzip_static     on;
    gzip_comp_level 5;
    gzip_min_length 1024;
    gzip_types      text/plain text/xml application/xml application/javascript text/javascript text/css text/json;
    gzip_disable     "msie6";
    gzip_vary on;

    # Timeout for keep-alive connections. Server will close connections after this time.
    keepalive_timeout  30;

    # Number of requests a client can make over the keep-alive connection.
    keepalive_requests 1000;

    # Allow the server to close the connection after a client stops responding.
    reset_timedout_connection on;

    # Send the client a "request timed out" if the body is not loaded by this time.
    # client_body_timeout 10;

    # If the client stops reading data, free up the stale client connection after this much time.
    # send_timeout 2;

    limit_req_zone $binary_remote_addr zone=myzone:10m rate=4r/s;
    charset utf-8;

    root /path_to_www/$host;
    index  index.html index.php;
    access_log /var/log/nginx/access.$host.log main;

    include custom/bad_ua;
    include custom/bad_referer;
    include custom/bad_ip;
    include custom/bad_location;


    include conf.d/*.conf;

}

в этом файле сверху описаны общие настройки работы веб-сервера для всех виртуальных хостов. В конце файла строкой "include conf.d/*.conf;" подключаются индивидуальные настройки каждого вирт.хоста.

Строками "include custom/*" подключаются описания правил-признаков, по которым осуществляется фильтрация трафика:

custom/bad_ua:

custom/bad_referer:

custom/bad_ip:

custom/bad_location:

Это были сокращенные признаков плохих ботов. Выкладывать эти признаки целиком не буду, тем более у каждого они будут свои, как и цели/политики фильтрации.

Далее описанные переменные можно использовать либо для логгирования плохих IP и составления черных списков для файервола, либо сразу банить этих ботов на уровне фронтэнда так:
custom/server_common:

этот файл инклудится в индивидуальный конфиг каждого вирт. хоста, примерно так
conf.d/domain1.com.conf:

return 444 в nginx означает оборвать соединение. Если хоть один из признаков совпал, обрубаем соединение. Аналогично можно писать IP в отдельный лог-файл.

Удобство использования git в том, что при ковырянии логов на каком-то из серверов, если возникает необходимость внести изменения в конфиги, я их вношу и делаю commit/push в удаленный общий bare-репозиторий, с которого потом конфиги подхватываются другими серверами. Мне так удобно. Есть более правильный путь: chef/puppet/ansible/etc

nginx-фильтрация трафика - это реалтайм фильтрация, без анализа серий запросов.

еще несколько заметок:
- некоторые боты перебирают http-параметры, пробуют подсунуть разный реферер. При анализе серии запросов такое легко ловится
- другие боты, как уже упоминал выше, выдают себя за авторитетного хорошего бота, например, за Googlebot. Таких можно ловить по информации о клиентском IP. Если бот представился Googlebot, а его IP принадлежит хостеру OVH - это как минимум подозрительно
- часто боты не запрашивают картинки. Если бот выдает себя за человека и не запросил ни одной картинки/css/js, то это бот на 99%
- если бот даже запросил ресурсы(img/css/js), то порядок их загрузки имеет определенные правила и он зависит от браузеров и их версий.
- моего бота(php-crawler) на одном сервере все равно ловили, потом я понял почему.

А у вас есть какие-нибудь истории/вопросы про фильтрацию веб-трафика?

sspy · 25.07.2014, 02:35

Цитата:

Сообщение от chesser

А у вас есть какие-нибудь истории/вопросы про фильтрацию веб-трафика?

для апача есть подобное решение ? nginx у меня банит всё четко, а вот апач только на уровне htccess, хочется на более низком уровне.

для нгинкса юзаю так

Цитата:

if ($http_user_agent ~* Baiduspider|MJ12bot|NerdyBot) {
return 403;
break;
}

какой более правильный, твой или этот?

chesser · 25.07.2014, 02:57

Цитата:

Сообщение от sspy

для апача есть подобное решение ? nginx у меня банит всё четко, а вот апач только на уровне htccess, хочется на более низком уровне.

в апаче есть httpd.conf и все, что в него инклудится - это статическая часть апачевского конфига, в ней побольше возможностей, чем в htaccess, синтаксис такой же, но надо ребутать/релоадить сервер. Но все равно хрен редьки не слаще )

А зачем ты апачем банишь, если есть nginx? или это про разные серверы?
Буржуи в связке с апачем часто используют lighttpd, но в связи с усилением международного пиара nginx, соотношение nginx / lighttpd изменилось.

Можно даже апачем собирать IP и формировать из них черные списки для фаервола - самый низкий уровень, который тебе доступен на сервере.

Цитата:

Сообщение от sspy

для нгинкса юзаю так какой более правильный, твой или этот?

принципиальной разницы нет, оба правильные.

Для описания признаков я использую map-переменные, они имхо удобнее в использовании, чем if (список) , особенно когда этот список длинный - с одной стороны. С другой стороны, мои regexp-ы в map-ах надо бы разбивать и компоновать в группы...

Еще у тебя return 403 - т.е. бот-трафик проходит всю цепочку полностью, от (1) до (9), потому что 403 ответ - это именно HTTP-ответ, а не обрыв. У меня return 444 и nginx обрубает соединение в районе точки (4).
Возможно, у тебя цель отдать боту 403. Как эффективнее отваживать ботов ходить на сервер - я не знаю, статистики нет на этот счет, не сравнивал.

pepper · 25.07.2014, 15:32

Для блокировки по ip в nginx'е удобнее использовать директиву geo. Можно целые подсети добавлять в CIDR формате

PHP код:


			
geo $bad_ip {
  default        0;
  78.46.0.0/15      1; # bot  HETZNER
  178.63.0.0/16     1; # bot  HETZNER
}

На одном из серверов пытался как-то отловить бота, который делал по несколько запросов в секунду на внутренние адреса сайта, причем с верным рефером. По ip не получалось блокировать, т.к. ip были из сетей интернет-провайдеров (видимо соксы), UA тоже были валидные. На тот момент ограничился limit_req_zone.

chesser · 25.07.2014, 16:43

точно, забыл про geo написать, хотя сам его где-то использую.

такой детский вопрос, на который не знаю ответа:
на сколько актуальна информация, выдаваемая по команде: whois IP ?

Пример:

Какова вероятность, что этот IP на самом деле принадлежит не хостеру OVH, а, например, компании Google ?
Какова вероятность, что гугл арендовал у OVH их IP ?

pepper · 25.07.2014, 17:21

Цитата:

Сообщение от chesser

Какова вероятность, что этот IP на самом деле принадлежит не хостеру OVH, а, например, компании Google ?
Какова вероятность, что гугл арендовал у OVH их IP ?

Думаю, маловероятно, хотя кто их знает

Как вариант, можно проверить ip (и соседние в подсети) на наличие на нем/них сайтов (в бинге или в других сервисах). Если есть, то с большой долей вероятности можно сказать, что ip под хостинг используется.

sspy · 25.07.2014, 17:33

Цитата:

Сообщение от chesser

такой детский вопрос, на который не знаю ответа:
на сколько актуальна информация, выдаваемая по команде: whois IP ?

актуальна, т.к. это real time базы

Цитата:

Сообщение от chesser

Какова вероятность, что этот IP на самом деле принадлежит не хостеру OVH, а, например, компании Google ?
Какова вероятность, что гугл арендовал у OVH их IP ?

вероятность крайне мала. если ip гугловский то он палится чрез rDNS, если ни через whois и не rDNS не палится, значит они или втихую арендуют, что маловероятно, или кто-то просто прикинулся гуглботом, что вероятнее всего

Grut · 25.07.2014, 18:52

Цитата:

Сообщение от chesser

...
Какова вероятность, что этот IP на самом деле принадлежит не хостеру OVH, а, например, компании Google ?
Какова вероятность, что гугл арендовал у OVH их IP ?

В соседней ветке подсказывают, что в поле abuse-mailbox всегда будет google.com

W84me · 25.07.2014, 21:45

http://bgp.he.net/ для поиска подсеток, диапазонов и овнеров