Форум успешных вебмастеров - GoFuckBiz.com

  Форум успешных вебмастеров - GoFuckBiz.com > Бизнес-решения > Скрипты, программы и технические решения
Дата
USD/RUB58.7570
BTC/USD0.0000
Скрипты, программы и технические решения Обсуждаем скрипты, программы и новые технологии.

Закрытая тема
Опции темы Опции просмотра
Старый 24.01.2014, 16:31   #1
Avi
Senior Member
 
Аватар для Avi
 
Регистрация: 01.07.2012
Сообщений: 248
Бабло: $93280
По умолчанию Заебали боты Baidu

Ломятся на сервак.
Десятки тысяч запросов в сутки.
Поставил запреты в robots.txt и в htaccess.
Но эти гнилые черти все равно лезут

Как сделать так, что бы они вобще забыли про сервак?
Фаерволом блокировать , поможет?
Как грамотно сделать?

p.s. Обоссывал их мамы Китайский рот.
Avi вне форума  
Старый 24.01.2014, 16:54   #2
MarafoN!
Senior Member
 
Регистрация: 28.05.2007
Сообщений: 1,920
Бабло: $344123
По умолчанию

в хтачес по юзер агенту не пробовал?
MarafoN! вне форума  
Старый 24.01.2014, 17:01   #3
isoff
Senior Member
 
Регистрация: 16.09.2008
Сообщений: 617
Бабло: $138676
По умолчанию

Цитата:
Сообщение от MarafoN! Посмотреть сообщение
в хтачес по юзер агенту не пробовал?
Сервер то все равно долбить будут.
isoff вне форума  
Старый 24.01.2014, 17:42   #4
1een
Senior Member
 
Аватар для 1een
 
Регистрация: 28.05.2009
Сообщений: 1,304
Бабло: $161695
По умолчанию

Как вариант, nginx - нагрузки нет, идеально:

PHP код:
if ($http_user_agent "Baidu|drugoy-huybot") {
    return 
400;
    } 
Но у лично меня не долбят. Единственное, Majestic-бот достает. Мой стандартный конфиг:

PHP код:
if ($http_user_agent "BLEXBot|wget|Morfeus|Toata|MJ12bot|QuerySeekerSpider|JikeSpider|proximic|Sosospider|Sogou web spider|aesop_com_spiderman|alexibot|backweb|batchftp|bigfoot|black.hole|blackwidow|blowfish|botalot|buddy|builtbottough|bullseye|cheesebot|cherrypicker|chinaclaw|collector|copier|copyrightcheck|cosmos|crescent|curl|custo|da|diibot|disco|dittospyder|dragonfly|drip|easydl|ebingbong|ecatch|eirgrabber|emailcollector|emailsiphon|emailwolf|erocrawler|exabot|eyenetie|filehound|flashget|flunky|frontpage|getright|getweb|go.?zilla|go-ahead-got-it|gotit|grabnet|grafula|harvest|hloader|hmview|httplib|httrack|humanlinks|ilsebot|infonavirobot|infotekies|intelliseek|interget|iria|jennybot|jetcar|joc|justview|jyxobot|kenjin|keyword|larbin|leechftp|lexibot|lftp|libweb|likse|linkscan|linkwalker|lnspiderguy|lwp|magnet|mag-net|markwatch|mata.hari|memo|microsoft.url|midown.tool|miixpc|mirror|missigua|mister.pix|moget|mozilla.newt|nameprotect|navroad|backdoorbot|nearsite|net.?vampire|netants|netcraft|netmechanic|netspider|nextgensearchbot|attach|nicerspro|nimblecrawler|npbot|octopus|offline.?explorer|offline.navigator|openfind|outfoxbot|pagegrabber|papa|pavuk|pcbrowser|php.?version.?tracker|pockey|propowerbot|prowebwalker|psbot|pump|queryn|recorder|realdownload|reaper|reget|true_robot|repomonkey|rma|internetseer|sitesnagger|siphon|slysearch|smartdownload|snake|snapbot|snoopy|sogou|spacebison|spankbot|spanner|sqworm|superbot|superhttp|surfbot|asterias|suzuran|szukacz|takeout|teleport|telesoft|the.intraformant|thenomad|tighttwatbot|titan|urldispatcher|turingos|turnitinbot|urly.warning|vacuum|vci|voideye|whacker|libwww-perl|widow|wisenutbot|wwwoffle|xaldon|xenu|zeus|zyborg|anonymouse|zip|emaile|enhancer|fetch|go.?is|auto|bandit|clip|copier|master|sauger|site.quester|whack|craftbot|download|extract|stripper|sucker|ninja|clshttp|webspider|leacher|grabber|webpictures|Jakarta|User-Agent|libwww|lwp-trivial|PHPCrawl|WEP Search|Missigua Locator|ISC Systems iRc|Aboundex|360Spider|Java|Cogentbot|BunnySlippers|Cegbfeieh|AIBOT|Demon|Devil|Wonder|Foobot|Kenjin Spider|Density|LinkextractorPro|LWP::Simple|MassDownloader|Mass Downloader|NetZIP|NG|Metasearch|WebFetch|WebCopier|Webclipping|WebBandit|WebAuto|WebGo|Web.Image.Collector|WebLeacher|WebmasterWorldForumBot|WebReaper|WebSauger|eXtractor|Webster|WebStripper|WebWhacker|WebZIP|Wget|Catall Spider|AcoiRobot|rogerbot|mj12bot|Ahrefsbot|Zite|TweetmemeBot|woriobot|topsy|js-kit|NING") {
    return 
400;
    } 
1een вне форума  
Старый 24.01.2014, 17:47   #5
MarafoN!
Senior Member
 
Регистрация: 28.05.2007
Сообщений: 1,920
Бабло: $344123
По умолчанию

Цитата:
Сообщение от isoff Посмотреть сообщение
Сервер то все равно долбить будут.
10-20k запросов сильно сервер за день не напрягёт
MarafoN! вне форума  
Старый 24.01.2014, 18:31   #6
awm521212225
Senior Member
 
Аватар для awm521212225
 
Регистрация: 20.03.2012
Сообщений: 863
Бабло: $393585
По умолчанию

редиректь обратно на байду по реферу, банят потом там. список ботов и подсетей поищи на мастере там много.
__________________
Сторонникам Морали и Нравственности нужно немедленно отрезать хуй, потому что хуй -- это безнравственно.
awm521212225 вне форума  
Старый 24.01.2014, 19:09   #7
Drg
Senior Member
 
Регистрация: 19.09.2009
Сообщений: 4,100
Бабло: $611505
По умолчанию

Я баню подобных ботов через php скрипты по Юзерагенту, можно через .htaccess или даже сразу через httpd.conf
Смысл подобных банов в том, что бот со временем не будет знать все твои страницы и будет заходить только на одну, получать 403 ошибку и сваливать.
Когда же у тебя открыт доступ для этого бота, то он заходит на все страницы, а их на одном сайте может быть 10-ки тысяч
Drg вне форума  
Старый 24.01.2014, 19:31   #8
Hector
Статус кво
 
Аватар для Hector
 
Регистрация: 02.05.2008
Адрес: California
Сообщений: 11,243
Бабло: $1447930
Отправить сообщение для Hector с помощью ICQ
По умолчанию

nginx использую для бана ботов
__________________
----
Hector вне форума  
Старый 24.01.2014, 19:45   #9
sspy
главный злодей гофака
 
Аватар для sspy
 
Регистрация: 18.06.2007
Сообщений: 5,305
Бабло: $879193
По умолчанию

если через htaccess по юзерагенту заблочить, то вебсервер всёравно напрягать будут. nginx в этом плане продвинутей.

если уж прямо критично можно по сетке в фаерволе заблочить
sspy на форуме  
Старый 24.01.2014, 19:54   #10
Onyx
Senior Member
 
Аватар для Onyx
 
Регистрация: 02.10.2012
Сообщений: 305
Бабло: $71110
По умолчанию

я бы сделал так

тут собиру диапазоны

http://bgp.he.net/search?search%5Bsearch%5D=baidu

можно собрать AS_ы baidu и по ним выгести диапазоны

http://bgp.he.net/AS55967

ну а потом так

iptables -A INPUT -s 180.76.0.0/20 -j DROP

ну и сохранить чтоб при перезагузке сервака правила востановились

iptables-save > /etc/sysconfig/iptables
Onyx вне форума