|
| Дата |
|
USD/RUB | 90.1887 | BTC/USD | 67093.4108 |
|
|
|
Скрипты, программы и технические решения Обсуждаем скрипты, программы и новые технологии. |
24.02.2018, 22:41
|
#1
|
Senior Member
Регистрация: 12.01.2009
Сообщений: 346
Бабло: $86613
|
Как полностью забанить ботов на сайте?
Привет, надо полностью забанить ботов, парсящих сайт.
Я, конечно, понимаю, что против офигенного софта, который эмулирует мотание мышью в реальном браузере ничего особо сделать не получится.
Но как минимум нужно проверять, что у юзера есть яваскрипт, мышь при движении вызывает onmouseover и прочие жс евенты, canvas fingerprint, webgl hash совпадает с юзерагентом, вот это все. 0,05% гиков, которые отключают яваскрипт пусть идут лесом.
Какие есть сервисы (можно платные) или скрипты для реализации подобного?
|
|
|
25.02.2018, 04:40
|
#2
|
Senior Member
Регистрация: 08.10.2008
Сообщений: 237
Бабло: $72095
|
php код
$d=$_SERVER['HTTP_USER_AGENT'];
if (strstr($d,"mj12bot") or strstr($d,"baiduspider") or strstr($d,"yandex") or strstr($d,"ahrefs") or strstr($d,"semrush") or strstr($d,"megaindex"))
header('Location: http://google.com');
добавить всех ещё не указанных и смотреть результат по логам
|
|
|
25.02.2018, 09:02
|
#3
|
Senior Member
Регистрация: 01.08.2016
Сообщений: 1,332
Бабло: $155245
|
serggg, боты сейчас ходят с нормальным юзерагентом, и с диапазонов IP мобильных провайдеров. Их так просто не отфильтруешь. А ещё и Яндексоиды в технических целях лазят по сайтам с юзерагентами вида 'curl/7.29.0' и 'Go-http-client/1.1'
roddik, чтобы определить исполнение яваскрипта и "мышиных" событий надо по меньшей мере отдать боту 1 страницу и определять это яваскриптами на ней. Но следующий заход бот сделает с другого IP, или через публичные прокси Opera/Google/МобильныхОператоров, то есть ты будешь всегда опаздывать на 1 шаг. Плюс, перебанишь все эти публичные прокси, а с ними и кучу легитимных посетителей.
И надо очень аккуратно с IP Opera-turbo и Yandex-turbo, через которые эти браузеры жмут трафик.
Без потерь для SEO всех ботов не перебанишь, только самых тупых. И надо поддерживать актуальный список IP поисковых систем. Есть ещё нехорошие нюансы с Яндекс-браузером.
Последний раз редактировалось precautions; 25.02.2018 в 09:14.
|
|
|
25.02.2018, 10:37
|
#4
|
сыроед
Регистрация: 01.10.2015
Сообщений: 15,875
Бабло: $1862675
|
лучше уж регексп, чем столько strstr()
|
|
|
25.02.2018, 12:46
|
#5
|
Senior Member
Регистрация: 27.08.2007
Сообщений: 195
Бабло: $49320
|
вот такое видел
http://antibot.tdsse.com
отзывы почитай там, может подойдет.
|
|
|
26.02.2018, 15:11
|
#6
|
Senior Member
Регистрация: 12.01.2009
Сообщений: 346
Бабло: $86613
ТС -->
|
ТС
Цитата:
Сообщение от precautions
serggg, боты сейчас ходят с нормальным юзерагентом, и с диапазонов IP мобильных провайдеров. Их так просто не отфильтруешь. А ещё и Яндексоиды в технических целях лазят по сайтам с юзерагентами вида 'curl/7.29.0' и 'Go-http-client/1.1'
roddik, чтобы определить исполнение яваскрипта и "мышиных" событий надо по меньшей мере отдать боту 1 страницу и определять это яваскриптами на ней. Но следующий заход бот сделает с другого IP, или через публичные прокси Opera/Google/МобильныхОператоров, то есть ты будешь всегда опаздывать на 1 шаг. Плюс, перебанишь все эти публичные прокси, а с ними и кучу легитимных посетителей.
И надо очень аккуратно с IP Opera-turbo и Yandex-turbo, через которые эти браузеры жмут трафик.
Без потерь для SEO всех ботов не перебанишь, только самых тупых. И надо поддерживать актуальный список IP поисковых систем. Есть ещё нехорошие нюансы с Яндекс-браузером.
|
На сео мне пофиг. По ру трафику я не работаю, а на ен, как я понимаю, особо аналогами оперы турбо не пользуются? Отдавать 1 пагу я перед баном я тоже не против.
Думал такой вариант:
1. Айпи не был активен предыдущий час (24 паги в сутки на айпи отдавать не критично).
2. Скрытый жс при открытии страницы записывает деятельность мышки и т.д. и т.п. в куку, при следующем запросе проверяется наличие этой куки.
3. Следующий запрос с этого айпи идет без куки - отдаем пагу с капчей, решают - ставим куку, нет - до свидания. Реальным юзерам кука будет поставлена автоматически на прошлой странице и они даже не увидят промежуточную
Вопрос в том, что ставить в куку, чтобы девелопер бота не вытащил ее руками и не прописал своему боту?
|
|
|
26.02.2018, 15:51
|
#7
|
Tomorrow
Регистрация: 22.01.2013
Адрес: Баден-Баден
Сообщений: 1,451
Бабло: $236030
|
Код:
RewriteCond %{HTTP_USER_AGENT} ^AhrefsBot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Majestic-12 [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Alexibot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Aqua_Products [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^BackDoorBot/1.0 [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^BecomeBot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^BlackWidow [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^BlekkoBot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^BlowFish/1.0 [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^BotALot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Bot\ mailto:[email protected] [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^BuiltBotTough [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Bullseye/1.0 [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^BunnySlippers [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^CheeseBot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^CherryPicker [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^ChinaClaw [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Copernic [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^CopyRightCheck [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Crescent [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Custo [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^DISCo [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^DittoSpyder [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Dotbot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Download\ Demon [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^EirGrabber [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^EmailCollector [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^EmailSiphon [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^EmailWolf [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Enterprise_Search [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^EroCrawler [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Exabot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Express\ WebPictures [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^ExtractorPro [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^GetWeb! [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Gigabot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Go!Zilla [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Go-Ahead-Got-It [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^GrabNet [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Grafula [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^HMView [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^HTTrack [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Harvest/1.5 [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Image\ Stripper [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Image\ Sucker [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Indy\ Library [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^InfoNaviRobot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^InterGET [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^JennyBot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^JetCar [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Jetbot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^LNSpiderguy [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^LeechFTP [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^LexiBot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^LinkScan [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^LinkWalker [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^LinkextractorPro [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^MIDown\ tool [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^MIIxpc [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^MJ12bot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^MSIECrawler [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Mass\ Downloader [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Mister\ PiX [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^NICErsPRO [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Navroad [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^NearSite [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^NetAnts [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^NetMechanic [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^NetSpider [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^NetZIP [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Net\ Vampire [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Nutch [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Octopus [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Offline\ Explorer [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Offline\ Navigator [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Openbot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Openfind [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^PageGrabber [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Papa\ Foto [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^PerMan [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^ProPowerBot/2.14 [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^ProWebWalker [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Python-urllib [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^RMA [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^ReGet [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^RealDownload [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^RepoMonkey [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Rogerbot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^SiteSnagger [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Sitebot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^SmartDownload [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^SpankBot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Stanford [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^SuperBot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^SuperHTTP [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Surfbot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Szukacz/1.4 [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Teleport [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^TeleportPro [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Teleport\ Pro [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Telesoft [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Teoma [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^TheNomad [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^True_Robot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^URL_Spider_Pro [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^VCI [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^VoidEYE [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^WWW-Collector-E [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^WWWOFFLE [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^WebAuto [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^WebBandit [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^WebCopier [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^WebEnhancer [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^WebFetch [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^WebGo\ IS [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^WebLeacher [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^WebReaper [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^WebSauger [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^WebStripper [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^WebVac [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^WebWhacker [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^WebZip [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Web\ Image\ Collector [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Web\ Sucker [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^WebmasterWorldForumBot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Website\ Quester [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Website\ eXtractor [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Wget [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Widow [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Xaldon\ WebSpider [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Xenu [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Zeus [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^asterias [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^b2w/0.1 [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^cosmos [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^dotbot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^dumbot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^eCatch [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^es [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^exabot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^gigabot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^grub [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^grub-client [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^hloader [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^httplib [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^humanlinks [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^ia_archiver [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^larbin [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^libWeb/clsHTTP [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^looksmart [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^lwp-trivial [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^lwp-trivial/1.34 [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^moget [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^naver [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^pavuk [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^pcBrowser [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^psbot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^rogerbot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^scooter [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^searchpreview [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^sootle [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^spanner [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^suzuran [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^tAkeOut [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^toCrawl/UrlDispatcher [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^turingos [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Blinkx/DFS-Fetch [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^CheckLinks [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^EC2LinkFinder [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^findlinks [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^freshlinks.exe [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^InfoLink [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^InternetLinkAgent [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^link_checker [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^LinkAlarm [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^linkbot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^LinkChecker [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^linkdex.com [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^LinkLint [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^linklooker [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Linkman [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^LinkScan [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^LinksManager.com_bot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^LinkSweeper [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^radian6_linkcheck [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^ShowLinks [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^WebLinker [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^yolinkBot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^ScrapeBox [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Majestic-SEO [NC]
RewriteRule ^.* - [F,L]
|
|
|
26.02.2018, 17:44
|
#8
|
Senior Major
Регистрация: 06.04.2015
Сообщений: 615
Бабло: $86014
|
И че, всё, боты все перебанятся?
Последний раз редактировалось admin; 02.03.2018 в 11:37.
|
|
|
26.02.2018, 17:48
|
#9
|
Senior Member
Регистрация: 29.11.2016
Сообщений: 128
Бабло: $26835
|
следить за движением мышки не лучший вариант, сейчас большая часть заходов с мобильных устройств
|
|
|
26.02.2018, 18:02
|
#10
|
Tomorrow
Регистрация: 22.01.2013
Адрес: Баден-Баден
Сообщений: 1,451
Бабло: $236030
|
Цитата:
Сообщение от Dimazzan
И че, всё, боты все перебанятся?
|
А ты сможешь всех забанить?
|
|
|
|