Защита сервера от ботов - Форум успешных вебмастеров - GoFuckBiz.com - Страница 9

Регистрация

Сообщения за день

Пользователи

		Форум успешных вебмастеров - GoFuckBiz.com > Бизнес-решения > Хостинг и железо
Защита сервера от ботов


Дата
USD/RUB	88.6852
BTC/USD	67794.8860

Хостинг и железо Обсуждаем вопросы хостинга и железа.

Закрытая тема

Страница 9 из 9

9

Опции темы

Опции просмотра

Старый

25.07.2014, 00:52

Start Post: Защита сервера от ботов

#81

chesser

автоматизирую интернеты

Аватар для chesser

Регистрация: 05.07.2009

Адрес: chesser.ru

Сообщений: 3,362
Бабло: $470735

По умолчанию

люблю следить за чужими ботами в логах своих веб-серверов. Порой проскакивают интересные экземпляры и "темы". Но большинство ботов являются нежданными гостями, а порой и опасны для сайта или сервера. Далее я хочу поделиться своими мыслями на эту тему.
Тыкаем на смайлы

More

Опасности ботов:

More

1) бот создает нагрузку на сервер, расходуя его ресурсы и, как следствие, сайт/сервер тормозит. (например: все ж "любят" китайского бота от baidu.com, который ставит раком любой сервер, вне зависимости от директив в robots.txt. Его обычно банят первым делом)
2) угроза безопасности - некоторые боты ищут уязвимости на сайтах и, если найдут, хакер поимеет ваш сайт или сервер, а это печально
3) происки конкурентов и другой сбор информации о ваших проектах третьими лицами, например, hrefs/мажестик/etc. Если конкуренты узнают ваши секреты продвижения проекта, они могу получить преимущество.
4) схожие с предыдущим пунктом боты различных правовых организаций, которые выступают за чистоту контента и соблюдения интернет-законов, т.е. копирайт боты, анти-фарма боты, анти-плагиат и тд. Эти боты могут писать письма вашим хостерам и вам по поводу и без повода, создавая лишние неудобства

Согласно моей статистике, хороших ботов, от которых есть польза, гораздо меньше, чем плохих.

Хорошие: боты поисковых компаний(google, yandex, bing) или тех систем, которые осознанно использованы непосредственно в проекте. Например, пробую использовать партнерку от viglink, от них на каждую страницу сайта приходит бот-анализатор...ну пусть ходит, раз так надо. Тоже самое с share-кнопками от addthis.com и тд. Хотя бы я в курсе кто это такие.
Также к хорошим ботам можно отнести те, которые сами ставят dofollow линки на ваш сайт. Если бот ставит ссылки на все сайты подряд без разбору, то по заявлениям гугла, такие ссылки не учитываются в ранжировании, хоть они и dofollow.

Раз хороших ботов меньше, чем плохих, то при их фильтрации логичнее применить "политику белых списков", т.е. блокируем ВСЕХ ботов, кроме хороших из белого списка. Если заранее не знаем этот список, то его сначала надо собрать или взять у коллег.
Если существует риск заблокировать очень нужного бота, который еще не успел попасть в белый список, или если трудно решиться на тотальную блокировку, можно использовать "политику черных списков", т.е. разрешать ВСЕХ ботов, кроме плохих.
У меня пока используется второй вариант, но планирую переход к первому, т.к. статистика показала, что полезных ботов на несколько порядков меньше.

Определение термина "бот"

More

Признаки бота

More

Признак - это набор фактов, или набор значений параметров исследуемого веб-клиента, по которым его можно классифицировать на бот/небот.

Я разделяю признаки на:
1) статические, или лучше называть state-признаки, т.е. набор фактов о клиенте без учета времени, без учета его прошлого, _состояние_ веб-клиента здесь и сейчас. Грубо говоря, это набор значений параметров, которые указаны в одной строке лога веб-сервера (nginx/apache). Например:

Цитата:

5.135.18.89 - - [12/Jun/2013:06:15:55 +0400] "GET /phpmyadmin/ HTTP/1.1" 200 13820 "-" "Googlebot/2.1 (+http://www.googlebot.com/bot.html)" "-"

часто достаточно одной такой строки, чтобы сделать вывод о том, что это бот. Например, когда об этом явно написано: "Googlebot/2.1....." (но не всегда, см. дальше)
2) динамические, которые учитывают серии запросов клиента, разделенных во времени, а также запросы других "соседних" веб-клиентов. Например, если веб-клиент по state-признакам классифицировался как небот, но он долбит сервер с частотой 100 запросов в секунду, то скорее всего он бот и простой классификатор ошибся. (Эта часть анализа бот/небот сложна и интересна и можно обсудить потом подробнее. Дальше пишу про первый пункт.)

Боты, путешествующие по сайтам, являются http-клиентами, т.е. речь идет именно о http(s)-протоколе, а раз так, то и факты о боте лежат в источнике (хост, IP-адрес) http-запроса и в его http-заголовке, которым он представляется каждый раз, стучась к нам на сервер. Рассматривая источник запроса и его возможные http-заголовки, можно выделить следующие параметры, из которых формируются state-признаки ботов:
- IP клиента
- http user agent
- http request uri
- http referer
- http cookie
- и другие

Это основные и их достаточно, чтобы обрубить 99% бот-трафика.

Степень наглости ботов.

More

Политика и цели филтрации бот-трафика

More

Маршрут ботов и компоненты их анализа

More

Путь следования запроса от клиента к серверу и обратно:

(1) клиент-хост -> (сквозь каналы и коммутаторы, сетевой уровень) -> (2) сетевой интерфейс сервера (транспортный уровень, tcp/ip) -> (3) ядро ОС (с участием firewall) -> (прикладной уровень, http) -> (4) фронтэнд веб-сервера -> (прикладной уровень, например fastcgi) -> (5) бекэнд веб-сервера -> (fastcgi) -> (6) фронтэнд веб-сервера -> (7) ядро ОС -> (8) сетевой интерфейс -> (9) клиент-хост

В точке (5) "бекэнд веб-сервера" обычно жарче всего. При хайлоад-оптимизациях, стараются минимизировать ее участие при общении с веб-клиентом. А при защите от ботов стараются допускать до сюда только тех, кому оно действительно надо: юзеры, использующие динамические части сайта и сверх-умные боты, которых лучше не обманывать, например, гуглобота можно пускать. Менее хорошим и более тупым ботам достаточно показать кеш из точки (4).

Все вопросы классификации трафика на бот/небот лучше решать в как можно более ранних точках:
(1) хост веб-клиента. Бан хоста будет хорошим решением, если вас долбит один и тот же бот или подсеть, пишите на них абузу, может и выйдет что-то
(2) на сетевом уровне обычно работают железячные анти-ддос защиты и прочее оборудование, недоступное рядовому сервер-арендателю. К тому же, этому оборудованию нужно передать политику классификации на бот/небот, иначе оно не узнает какие боты хорошие, какие плохие. При умной и тонкой фильтрации имхо такие способы не доступны, зато для анти-ддос самое то.
(3) точка приема трафика на сервер и обработка его ОСью. До этого уровня мы (админы) дотянуться можем - можем блокировать прохождение трафика дальше этой точки, т.е. обрубать поток, но для классификации на бот/небот нам доступен только IP, т.к. это транспортный уровень и HTTP-протокол еще не вступил в действие, мы не знаем http-хедеров, т.е. неизвестны ua, referer, request uri и тд. Если есть заранее подготовленные белые/черные списки IP, то в этом месте можно их применить. Один из вариантов фильтрации трафика - заранее готовить и постоянно обновлять эти списки.
(4) на веб-фронтэнде уже известно о веб-клиенте все, что нужно, осталось проанализировать значения параметров и соотнести их со state-признаками и классифицировать на бот/небот. Обычно, этот анализ происходит внутри конфига веб-фронтэнда, пропускать его в следующую точку (5) на бекэнд крайне не желательно, но при сложном бот-анализе можно. Самый просто пример анализа параметра Http User Agent: ищем с помощью regexp стоп слова: php, perl, python, baidu, ahrefs, ezooms, checkparams etc - если нашли, значит это плохой бот.

Можно в точках (4) и (5) подготовить черный список ip, принадлежащих плохим ботам, и отправить его на уровень (3) в файервол, который будет блокировать все последующие запросы с этих IP. Придется постоянно следить за базой IP, желательно автоматически и в реальном времени.

Отступление про апач.

Offtopic

Что делать с обнаруженным ботом?

More

Профит от фильтрации ботов

More

далее еще будет практическая часть.....

__________________
USA и NL серверы и VPS | wiki | блог | Drupal | NginxТДС
Ave, Google, morituri te salutant! © chesser

Старый

22.10.2015, 05:56

#82

chesser

автоматизирую интернеты

Аватар для chesser

Регистрация: 05.07.2009

Адрес: chesser.ru

Сообщений: 3,362
Бабло: $470735

ТС -->

автор темы

ТС

По умолчанию

Цитата:

Сообщение от mycop

Nginx установил из коробки ispmanager lite

ispmanager предоставляет немного дубовую интеграцию nginx, но для начала и этого обычно хватает снизить нагрузку со статики. Тем не менее для защиты от DOS надо вмешиваться ручками.

У тебя сейчас веб-сервер состоит из 2-х компонентов:
- фронтэнд (это nginx), который принимает все HTTP запросы от юзеров и далее решает, что с ними делать: отдать файл сразу или отправить на обработку апачу или заблокировать юзера или ... - т.е. nginx типа метрдотеля, который встречает на входе гостей и определяет их куда-нибудь )
- бекэнд (у тебя это апач, хотя вместо него можно использовать php-fpm), который выполняет php/perl/python/...-скрипты и выдает их результат.

Как оно у тебя работает для статики:
http-клиент -> nginx -> отдаем сразу файл (картинка, css, js)

для php:
http-клиент -> nginx -> apache -> выполнение php -> nginx -> отдаем ответ апача

Основная проблема с нагрузкой заключается в запуске php...просто потому, что это сложные манипуляции с памятью, процессором, диском, да если еще php-код кривой, то совсем все будет плохо. Поэтому надо стараться допустить к апачу/php только хороших http-клиентов, а плохих банить в nginx еще на подступах.

тебе надо в http{} определить зоны блокировки, а в server {} или в location{} от нужного домена использовать эти зоны. Например, применить зону в том месте, где nginx передает запрос апачу на исполнение, т.о. при запросе php файла более N-раз nginx прекратит передачу запросов апачу для этого IP юзера. Как-то так.

Вообще, я бы советовал изучать это без панелей. Возьми дешевую впску за 5-10 баксов и потренируйся....без панелей и без апача )) nginx + php-fpm - инструкции по настройки - окей гугл

Цитата:

Сообщение от mycop

Еще вопрос, я несовсем понимаю, если я захочю свою ОС поставить как ето нада сделать?

обычно, при заказе vps/vds хостер спрашивает желаемую ОС и часто это все автоматизированно, т.е. клиент сам может (пере-)устанавливать ОСы как ему угодно, а хостер только обеспечивает стандартными образами популярных ОС. Ну или напиши тикет своему хостеру, что хочешь сделать реинстал системы и хочешь такую-то ОС.

__________________
USA и NL серверы и VPS | wiki | блог | Drupal | NginxТДС
Ave, Google, morituri te salutant! © chesser

chesser вне форума

Закрытая тема

Страница 9 из 9

9