Как полностью забанить ботов на сайте? - Форум успешных вебмастеров - GoFuckBiz.com
 
 
Форум успешных вебмастеров - GoFuckBiz.com

  Форум успешных вебмастеров - GoFuckBiz.com > Бизнес-решения > Скрипты, программы и технические решения
Дата
USD/RUB90.1887
BTC/USD67093.4108
Скрипты, программы и технические решения Обсуждаем скрипты, программы и новые технологии.

Закрытая тема
Опции темы Опции просмотра
Старый 24.02.2018, 22:41   #1
roddik
Senior Member
 
Аватар для roddik
 
Регистрация: 12.01.2009
Сообщений: 346
Бабло: $86613
По умолчанию Как полностью забанить ботов на сайте?

Привет, надо полностью забанить ботов, парсящих сайт.

Я, конечно, понимаю, что против офигенного софта, который эмулирует мотание мышью в реальном браузере ничего особо сделать не получится.

Но как минимум нужно проверять, что у юзера есть яваскрипт, мышь при движении вызывает onmouseover и прочие жс евенты, canvas fingerprint, webgl hash совпадает с юзерагентом, вот это все. 0,05% гиков, которые отключают яваскрипт пусть идут лесом.

Какие есть сервисы (можно платные) или скрипты для реализации подобного?
roddik вне форума  
Старый 25.02.2018, 04:40   #2
serggg
Senior Member
 
Аватар для serggg
 
Регистрация: 08.10.2008
Сообщений: 237
Бабло: $72095
По умолчанию

php код

$d=$_SERVER['HTTP_USER_AGENT'];
if (strstr($d,"mj12bot") or strstr($d,"baiduspider") or strstr($d,"yandex") or strstr($d,"ahrefs") or strstr($d,"semrush") or strstr($d,"megaindex"))
header('Location: http://google.com');


добавить всех ещё не указанных и смотреть результат по логам
serggg вне форума  
Старый 25.02.2018, 09:02   #3
precautions
Senior Member
 
Регистрация: 01.08.2016
Сообщений: 1,332
Бабло: $155245
По умолчанию

serggg, боты сейчас ходят с нормальным юзерагентом, и с диапазонов IP мобильных провайдеров. Их так просто не отфильтруешь. А ещё и Яндексоиды в технических целях лазят по сайтам с юзерагентами вида 'curl/7.29.0' и 'Go-http-client/1.1'

roddik, чтобы определить исполнение яваскрипта и "мышиных" событий надо по меньшей мере отдать боту 1 страницу и определять это яваскриптами на ней. Но следующий заход бот сделает с другого IP, или через публичные прокси Opera/Google/МобильныхОператоров, то есть ты будешь всегда опаздывать на 1 шаг. Плюс, перебанишь все эти публичные прокси, а с ними и кучу легитимных посетителей.
И надо очень аккуратно с IP Opera-turbo и Yandex-turbo, через которые эти браузеры жмут трафик.

Без потерь для SEO всех ботов не перебанишь, только самых тупых. И надо поддерживать актуальный список IP поисковых систем. Есть ещё нехорошие нюансы с Яндекс-браузером.

Последний раз редактировалось precautions; 25.02.2018 в 09:14.
precautions вне форума  
Старый 25.02.2018, 10:37   #4
веломан
сыроед
 
Аватар для веломан
 
Регистрация: 01.10.2015
Сообщений: 15,875
Бабло: $1862675
По умолчанию

лучше уж регексп, чем столько strstr()
веломан вне форума  
Старый 25.02.2018, 12:46   #5
greg green
Senior Member
 
Регистрация: 27.08.2007
Сообщений: 195
Бабло: $49320
По умолчанию

вот такое видел
http://antibot.tdsse.com
отзывы почитай там, может подойдет.
greg green вне форума  
Старый 26.02.2018, 15:11   #6
roddik
Senior Member
 
Аватар для roddik
 
Регистрация: 12.01.2009
Сообщений: 346
Бабло: $86613
ТС -->
автор темы ТС По умолчанию

Цитата:
Сообщение от precautions Посмотреть сообщение
serggg, боты сейчас ходят с нормальным юзерагентом, и с диапазонов IP мобильных провайдеров. Их так просто не отфильтруешь. А ещё и Яндексоиды в технических целях лазят по сайтам с юзерагентами вида 'curl/7.29.0' и 'Go-http-client/1.1'

roddik, чтобы определить исполнение яваскрипта и "мышиных" событий надо по меньшей мере отдать боту 1 страницу и определять это яваскриптами на ней. Но следующий заход бот сделает с другого IP, или через публичные прокси Opera/Google/МобильныхОператоров, то есть ты будешь всегда опаздывать на 1 шаг. Плюс, перебанишь все эти публичные прокси, а с ними и кучу легитимных посетителей.
И надо очень аккуратно с IP Opera-turbo и Yandex-turbo, через которые эти браузеры жмут трафик.

Без потерь для SEO всех ботов не перебанишь, только самых тупых. И надо поддерживать актуальный список IP поисковых систем. Есть ещё нехорошие нюансы с Яндекс-браузером.
На сео мне пофиг. По ру трафику я не работаю, а на ен, как я понимаю, особо аналогами оперы турбо не пользуются? Отдавать 1 пагу я перед баном я тоже не против.

Думал такой вариант:
1. Айпи не был активен предыдущий час (24 паги в сутки на айпи отдавать не критично).
2. Скрытый жс при открытии страницы записывает деятельность мышки и т.д. и т.п. в куку, при следующем запросе проверяется наличие этой куки.
3. Следующий запрос с этого айпи идет без куки - отдаем пагу с капчей, решают - ставим куку, нет - до свидания. Реальным юзерам кука будет поставлена автоматически на прошлой странице и они даже не увидят промежуточную

Вопрос в том, что ставить в куку, чтобы девелопер бота не вытащил ее руками и не прописал своему боту?
roddik вне форума  
Старый 26.02.2018, 15:51   #7
Creolabs
Tomorrow
 
Аватар для Creolabs
 
Регистрация: 22.01.2013
Адрес: Баден-Баден
Сообщений: 1,451
Бабло: $236030
По умолчанию

Код:
RewriteCond %{HTTP_USER_AGENT} ^AhrefsBot [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^Majestic-12 [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^Alexibot [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^Aqua_Products [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^BackDoorBot/1.0 [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^BecomeBot [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^BlackWidow [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^BlekkoBot [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^BlowFish/1.0 [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^BotALot [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^Bot\ mailto:[email protected] [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^BuiltBotTough [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^Bullseye/1.0 [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^BunnySlippers [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^CheeseBot [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^CherryPicker [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^ChinaClaw [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^Copernic [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^CopyRightCheck [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^Crescent [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^Custo [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^DISCo [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^DittoSpyder [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^Dotbot [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^Download\ Demon [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^EirGrabber [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^EmailCollector [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^EmailSiphon [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^EmailWolf [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^Enterprise_Search [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^EroCrawler [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^Exabot [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^Express\ WebPictures [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^ExtractorPro [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^GetWeb! [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^Gigabot [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^Go!Zilla [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^Go-Ahead-Got-It [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^GrabNet [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^Grafula [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^HMView [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^HTTrack [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^Harvest/1.5 [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^Image\ Stripper [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^Image\ Sucker [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^Indy\ Library [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^InfoNaviRobot [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^InterGET [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^JennyBot [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^JetCar [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^Jetbot [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^LNSpiderguy [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^LeechFTP [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^LexiBot [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^LinkScan [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^LinkWalker [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^LinkextractorPro [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^MIDown\ tool [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^MIIxpc [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^MJ12bot [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^MSIECrawler [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^Mass\ Downloader [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^Mister\ PiX [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^NICErsPRO [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^Navroad [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^NearSite [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^NetAnts [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^NetMechanic [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^NetSpider [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^NetZIP [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^Net\ Vampire [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^Nutch [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^Octopus [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^Offline\ Explorer [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^Offline\ Navigator [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^Openbot [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^Openfind [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^PageGrabber [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^Papa\ Foto [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^PerMan [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^ProPowerBot/2.14 [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^ProWebWalker [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^Python-urllib [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^RMA [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^ReGet [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^RealDownload [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^RepoMonkey [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^Rogerbot [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^SiteSnagger [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^Sitebot [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^SmartDownload [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^SpankBot [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^Stanford [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^SuperBot [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^SuperHTTP [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^Surfbot [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^Szukacz/1.4 [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^Teleport [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^TeleportPro [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^Teleport\ Pro [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^Telesoft [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^Teoma [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^TheNomad [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^True_Robot [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^URL_Spider_Pro [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^VCI [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^VoidEYE [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^WWW-Collector-E [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^WWWOFFLE [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^WebAuto [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^WebBandit [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^WebCopier [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^WebEnhancer [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^WebFetch [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^WebGo\ IS [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^WebLeacher [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^WebReaper [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^WebSauger [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^WebStripper [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^WebVac [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^WebWhacker [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^WebZip [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^Web\ Image\ Collector [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^Web\ Sucker [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^WebmasterWorldForumBot [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^Website\ Quester [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^Website\ eXtractor [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^Wget [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^Widow [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^Xaldon\ WebSpider [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^Xenu [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^Zeus [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^asterias [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^b2w/0.1 [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^cosmos [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^dotbot [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^dumbot [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^eCatch [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^es [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^exabot [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^gigabot [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^grub [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^grub-client [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^hloader [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^httplib [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^humanlinks [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^ia_archiver [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^larbin [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^libWeb/clsHTTP [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^looksmart [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^lwp-trivial [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^lwp-trivial/1.34 [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^moget [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^naver [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^pavuk [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^pcBrowser [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^psbot [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^rogerbot [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^scooter [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^searchpreview [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^sootle [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^spanner [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^suzuran [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^tAkeOut [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^toCrawl/UrlDispatcher [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^turingos [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^Blinkx/DFS-Fetch [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^CheckLinks [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^EC2LinkFinder [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^findlinks [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^freshlinks.exe [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^InfoLink [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^InternetLinkAgent [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^link_checker [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^LinkAlarm [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^linkbot [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^LinkChecker [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^linkdex.com [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^LinkLint [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^linklooker [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^Linkman [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^LinkScan [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^LinksManager.com_bot [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^LinkSweeper [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^radian6_linkcheck [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^ShowLinks [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^WebLinker [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^yolinkBot [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^ScrapeBox [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^Majestic-SEO [NC]
    RewriteRule ^.* - [F,L]
Creolabs вне форума  
Старый 26.02.2018, 17:44   #8
Dimazzan
Senior Major
 
Аватар для Dimazzan
 
Регистрация: 06.04.2015
Сообщений: 615
Бабло: $86014
По умолчанию

И че, всё, боты все перебанятся?

Последний раз редактировалось admin; 02.03.2018 в 11:37.
Dimazzan вне форума  
Старый 26.02.2018, 17:48   #9
slurp
Senior Member
 
Регистрация: 29.11.2016
Сообщений: 128
Бабло: $26835
По умолчанию

следить за движением мышки не лучший вариант, сейчас большая часть заходов с мобильных устройств
slurp вне форума  
Старый 26.02.2018, 18:02   #10
Creolabs
Tomorrow
 
Аватар для Creolabs
 
Регистрация: 22.01.2013
Адрес: Баден-Баден
Сообщений: 1,451
Бабло: $236030
По умолчанию

Цитата:
Сообщение от Dimazzan Посмотреть сообщение
И че, всё, боты все перебанятся?
А ты сможешь всех забанить?
Creolabs вне форума