статические копии динамических страниц - Форум успешных вебмастеров

double · 21.04.2009, 15:23

http://www.google.com/support/webmas...&answer=34431:
"Google индексирует динамически создаваемые веб-страницы, включая страницы .asp, страницы .php и страницы с вопросительными знаками в URL-адресах. Тем не менее, эти страницы могут мешать работе нашего сканера и могут быть проигнорированы. Если вам необходимо обеспечить индексирование динамических страниц, можно создать статические копии этих страниц для нашего сканера..."
и половина интернета цитирует фразу о статических копиях, как о чём-то интуитивно-понятном. а вот мне нифига непонятно
1. как подсунуть поисковику не то, что юзеру?
2. как потом показать юзеру не то, что проиндексировал поисковик?

yami · 21.04.2009, 15:49

это называется "клоакинг" (англ. cloacking). гугли.

double · 21.04.2009, 17:26

спасибо!
мало что можно нагуглить. в основном сказки про плохих парней (
http://www.seomoz.org/blog/white-hat...ted-its-useful
белый - ява скрипты и куки. где об этом можно почитать? или в 2х словах объясните основную мысль. как я могу предположить, если у посетителя отключены куки и не исполняются скрипты, то он воспринимается, как поисковый бот?
бог с ним с отличием бота от человека. технически как это организовать? вот хоть стреляйте не могу я понять, как это работает: я определяю бота (пофик как, я уже знаю, как я это сделаю. у меня частный случай) -> отправляю бота к документу B -> он его индексирует -> юзер потом в поисковике кликает ссылку и НЕ попадает на документ B, а попадает на документ A... вот этот момент мне непонятен. я чайник. просто ткните носом, где почитать. вот мои два вопроса из первого поста так и остались мне неясны (

MyName · 21.04.2009, 17:30

1 словом могу идею подкинуть

modrewrite

egorych · 21.04.2009, 17:54

+1 рерайтить динамику в статику и не будет вопросов

WebNinja · 21.04.2009, 18:20

Недавно новый аттрибут ввели - canonical
я так понимаю вот как раз для решения подобных проблем

http://googlewebmastercentral.blogsp...canonical.html

http://googlewebmastercentral.blogsp...sentation.html

Белое сео, парни, так-то. Вступайте в ряды Долга, вместе мы очистим интернеты от скверны.

yami · 21.04.2009, 19:07

Цитата:

Сообщение от double

спасибо!
мало что можно нагуглить. ...
бог с ним с отличием бота от человека. технически как это организовать?
...
вот мои два вопроса из первого поста так и остались мне неясны (

я же сказал - гугли! если ты уж найти не смог, что такое клоакинг, то может тебе не стоит с гуглом то играть в прятки?
технически? может стоит еще и, к примеру, пхп подучить?
на вот на пхп.

Код:

<?
$CONF['bots']=array(
"Accoona-AI-Agent",
"Adre/",
"Alexibot",
"Aport",
"AppleSyndication",
"BackDoorBot",
"Baiduspider",
"BecomeBot",
"BeijingCrawler",
"Bloglines Title Fetch/1.0",
"BlowFish",
"BotALot",
"BuiltBotTough",
"Bullseye",
"BunnySlippers",
"CheeseBot",
"CherryPicker",
"CherryPickerElite",
"CherryPickerSE",
"ConveraCrawler/0.9d",
"Copernic",
"CopyRightCheck",
"Crescent",
"DataPalm/PHP",
"DISCo Pump 3.2",
"DISCoFinder",
"DittoSpyder",
"Dumbot",
"EDI/1.6.5",
"EmailCollector",
"EmailSiphon",
"EmailWolf",
"Enterprise_Search",
"EroCrawler",
"Exabot",
"ExtractorPro",
"Feedfetcher-Google",
"Feedster Crawler",
"Foobot",
"FreeFind",
"Gaisbot",
"Geomaxenginebot",
"Gigabot",
"Googlebot-Image",
"Googlebot-Mobile/2.1",
"Googlebot/2.1",
"Harvest",
"Hatena Antenna",
"HouxouCrawler/",
"IRLbot/2.0",
"InfoNaviRobot",
"Java/",
"JennyBot",
"Jetbot",
"Kenjin Spider",
"Keyword Density",
"LNSpiderguy",
"Larbin",
"LexiBot",
"Liferea/",
"LinkScan",
"LinkWalker",
"LinkextractorPro",
"LocalcomBot",
"Lupa.ru",
"MJ12bot/v",
"MSIECrawler",
"MSRBOT",
"Mediapartners-Google/2.1",
"Microsoft Data Access Internet Publishing Provider Protocol Discovery",
"Microsoft URL Control",
"Microsoft-WebDAV-MiniRedir",
"Mister PiX",
"Mnogosearch-",
"NG/2.0",
"NICErsPRO",
"NetAnts",
"NetMechanic",
"NetResearchServer",
"Nutch",
"NutchCVS",
"Offline Explorer",
"OmniExplorer_Bot",
"OpenIntelligenceData/",
"Openbot",
"Openfind",
"OrangeSpider",
"OutfoxBot/",
"PerMan",
"Pompos/",
"ProPowerBot",
"ProWebWalker",
"Python-urllib",
"SBIder/0.8-dev",
"SPD",
"Shim-Crawler",
"SiteSnagger",
"SpankBot",
"SpiderMan",
"sproose/",
"StackRambler/",
"Stanford",
"SurveyBot",
"SyndicAPI/1.0",
"Syntryx ANT Scout Chassis Pheromone",
"TheNomad",
"True_Robot",
"TurnitinBot/",
"TurtleScanner",
"Twiceler",
"UMBC-memeta-Bot",
"UNTRUSTED",
"URL Control",
"URL_Spider_Pro",
"URLy Warning",
"W3C_Validator",
"WWW-Collector-E",
"Web Downloader",
"Web Image Collector",
"WebAlta Crawler",
"WebAuto",
"WebCAT",
"WebCopier",
"WebEnhancer",
"WebSauger",
"WebStripper",
"WebVac",
"WebmasterWorldForumBot",
"Webster Pro",
"Wget",
"Xenu Link Sleuth",
"Yahoo! Slurp China;",
"Yahoo! Slurp;",
"Yandex/",
"YandexBlog/",
"ZyBorg/1.0",
"adre.ru",
"aipbot/1.0",
"almaden.ibm.com/cs/crawler",
"appie 1.1",
"asterias",
"bot/1.0",
"ccubee/3.5",
"cosmos",
"eStyleSearch",
"findlinks/1.0.9",
"findlinks/1.1",
"g2Crawler",
"geniebot",
"grub crawler",
"grub-client",
"gsa-crawler",
"hloader",
"httplib",
"humanlinks",
"ia_archiver",
"ichiro/1.0",
"ichiro/2.0",
"larbin",
"libWeb/clsHTTP",
"libwww-perl",
"looksmart",
"lwp-trivial",
"moget",
"msnbot-media/",
"msnbot/",
"msnbot-Products",
"naver",
"nope",
"psbot",
"psycheclone",
"schibstedsokbot",
"searchmee_v0.1a",
"snap.com beta crawler",
"sogou spider",
"spanner",
"Speedy Spider",
"toCrawl/UrlDispatcher",
"turingos",
"uaportalbot",
"updated/0.1beta",
"virus_detector",
"voyager/1.0",
"wwwster/"
);
if (in_array($_SERVER['HTTP_USER_AGENT'],$CONF['bots']) {
$tpl->load_template('botz_template.tpl');
} else {
$tpl->load_template('main.tpl');
}
?>

и да, это очень примитивно. так что не спрашивай "а почему не сработало и гугл забанил.. бла бла бла".

Maxwell · 02.05.2009, 23:02

А что mod_rewrite отменили? Или ТС о чём-то другом?

RewriteRule ^cat\_(.*)(\.html)(.*)$ index.php?cat=$1 [NC,L]

Stogov · 06.05.2009, 14:58

ТС, собирайте в кучу запросы: "клоакинг", cloacking, mod_rewrite и идите читать мануалы.
Грубо говоря, это действует так - заходит на сайт посетитель. Вы его определяете. Ага, бот - налево. ага, человек - направо.

~~CyberianBrain~~ · 15.05.2009, 20:14

Ну, форумы гугл индексирует? Значит индексирует динамические страницы. Ему вообще-то пофиг что индексировать. Он получает хтмл текст и анализирует его, переходит по его ссылкам и тд и тд.
Сохранять статические страницы - глупо.
Вы попробуйте курлом прочитать выдачу гугла - самая, что ни на есть динамическая страница. И что вы получите? Вы получите статический хтмл документ.