|
| Дата |
|
USD/RUB | 93.4409 | BTC/USD | 66609.4661 |
|
|
|
Поисковые системы Поисковая оптимизация под Google, Yahoo, Bing и т.д. |
10.11.2013, 09:25
|
#1
|
Senior Member
Регистрация: 02.07.2011
Сообщений: 746
Бабло: $196220
|
Схемы обхода ботами
Могут ли быть закономерности по тому, как бот ходит по урлам в пределах сайта за сессию?
Кто анализировал логи по этому вопросу?
Есть у кого лог для сайта с индексом от 100к ?
|
|
|
10.11.2013, 11:23
|
#2
|
Member
Регистрация: 06.11.2009
Сообщений: 509
Бабло: $110830
|
я не находил.. там рандом полный
зы, каждый двиг он по-разному сканит, инфа 100%
|
|
|
10.11.2013, 14:32
|
#3
|
$400
Регистрация: 17.05.2009
Сообщений: 13,943
Бабло: $1894850
|
приоритет в зависимости от линков на страницу и веса этих линков
тупо в очередь сукины дети
|
|
|
10.11.2013, 15:11
|
#4
|
Сеньор Член
Регистрация: 11.04.2007
Адрес: The World
Сообщений: 1,125
Бабло: $107796
|
там целая кучка факторов, вроде вычисленной статистически вероятности изменения контента, тех же данных в сайтмапе, положения линка на странице итп
|
|
|
12.11.2013, 18:54
|
#5
|
Senior Member
Регистрация: 08.08.2008
Сообщений: 157
Бабло: $21455
|
Насколько я знаю, у них сессия может длиться и сутки, причём заходит бот по рандомным страницам или я просто не нашел какой-то закономерности, но одно время следил за этим.
|
|
|
12.11.2013, 18:59
|
#6
|
Senior Member
Регистрация: 28.11.2009
Сообщений: 1,800
Бабло: $299365
|
В гугле кстати это хорошо поддаётся манипуляции из панели вебмастера, загружаем собственный сайтмап с нужным вам приоритетом и выкручиваем скорость на 2 страницы в секунду, например.
И бот быстро обходит сначала приоритетные страницы, а потом остальные.
|
|
|
12.11.2013, 22:05
|
#7
|
Senior Member
Регистрация: 02.07.2011
Сообщений: 746
Бабло: $196220
ТС -->
|
ТС
Вроде как боты до загрузки/перехода по урлам могут дергать Last-Modified и If-Modified-Since. Но это катит для статики.
Не думаю что ботов пишут и не жалеют ресурсов, чтобы обходить рандомно. Должны быть четкие алго по которым бот ходит. Понятно что с условиями, но должны быть.
Имхо, если найти такие закономерности для разных структур сайтов, то можно будет клоачить перелинковкой и не только.
Хотя можно попробовать реализовать динамический robots.txt. Но боты в большинстве случаев ложат на него...
|
|
|
12.11.2013, 22:27
|
#8
|
Senior Member
Регистрация: 28.11.2009
Сообщений: 1,800
Бабло: $299365
|
Цитата:
Сообщение от 7make
Вроде как боты до загрузки/перехода по урлам могут дергать Last-Modified и If-Modified-Since. Но это катит для статики.
Не думаю что ботов пишут и не жалеют ресурсов, чтобы обходить рандомно. Должны быть четкие алго по которым бот ходит. Понятно что с условиями, но должны быть.
Имхо, если найти такие закономерности для разных структур сайтов, то можно будет клоачить перелинковкой и не только.
Хотя можно попробовать реализовать динамический robots.txt. Но боты в большинстве случаев ложат на него...
|
Тебе для какой пс? Просто для гугла вообще смысла париться нет, как я выше писал. 100к страниц за 5-7 дней на свежем домене - легко
|
|
|
12.11.2013, 22:39
|
#9
|
Senior Member
Регистрация: 02.07.2011
Сообщений: 746
Бабло: $196220
ТС -->
|
ТС
Цитата:
Сообщение от rushter
Тебе для какой пс? Просто для гугла вообще смысла париться нет, как я выше писал. 100к страниц за 5-7 дней на свежем домене - легко
|
Под яндекс.
Цитата:
Из хелпа.
В роботе Яндекса используется сессионный принцип работы, на каждую сессию формируется определенный пул страниц, которые планирует закачать робот.
|
Совсем доры перестал индексить.
Задача замутить динамическую перелинковку с учетом того, как бот будет ходить. Замыкать цепи на каждую сессию бота.
|
|
|
12.11.2013, 22:46
|
#10
|
Senior Member
Регистрация: 28.11.2009
Сообщений: 1,800
Бабло: $299365
|
Цитата:
Сообщение от 7make
Под яндекс.
Совсем доры перестал индексить.
Задача замутить динамическую перелинковку с учетом того, как бот будет ходить. Замыкать цепи на каждую сессию бота.
|
Ну у яндекса всегда с ресурсами туго было.
На больших белых сайтах практикуют нечто клоакинга, формируется база новых страниц которые не видел бот, и если яндекс бот открывает какую либо страницу ему подсовывается динамический блок из 2-5 новых ссылок, соответственно в базе эти ссылки помечаются как скормленные яндексу. Т.е навигационное меню формируется исключительно из новых ссылок.
|
|
|
|