Форум успешных вебмастеров - GoFuckBiz.com

  Форум успешных вебмастеров - GoFuckBiz.com > Разное > Треп | Флейм
Дата
USD/RUB58.6250
BTC/USD0.0000
Треп | Флейм Обсуждение самых разных тем вне онлайн бизнеса.

Закрытая тема
Опции темы Опции просмотра
Старый 23.09.2007, 08:51   #1
Sipler
Особый статус
 
Аватар для Sipler
 
Регистрация: 31.03.2007
Сообщений: 1,824
Бабло: $30550
Smile Dmoz и 'Проект robots.txt'

В двух словах. Товарищ Andrew Wooster взял базу Открытого Каталога (по его прикидкам, это около 4% Интернета), отпарсил ее, достав все домены (около 4,6 миллионов), а потом самописным пауком забрал с каждого домена robots.txt. Его мускульная база потянула на 12Гб.

Потом провел незатейливый анализ - если при запросе robots.txt сервер отдает 2хх - ОК, если 4хх - сакс. Код 200 отдали 1,2 миллиона сайтов, код 404 - 3 миллиона. Остальные 400 тысяч сайтов отдавали самую разнообразную петрушку. 21 сайт отдал код, о котором даже w3 Консорциум ничего не знает, типа 490 или 900.

Сводная таблица выглядит так:


Класс Количество Процентов
5xx 4,338 0.09
4xx 3,035,454 65.86
3xx 350,946 7.61
2xx 1,217,559 26.42
1xx 12 0.00
ХЗ 21 0.00
</pre>

Ну и, натурально, начал глумиться над незадачливыми веб-мастерами и мастерицами.

Около 65% отдают 4хх страницу - т.е. robots.txt отсутствует. 7,6% перенаправляют запрос на другую страницу - обычно на морду. И только около 26% имеют этот файл.

Некоторые специалисты решили размещать свой robots.txt не в виде text, а чего-нибудь повеселее. Самыми частыми ошибками MIME Types были:
  • text/enriched
  • text/css
  • text/x-perl
  • text/vnd.wap.wml

Присутствуют перлы:
  • text/svg

Ну это лохи были. Теперь выступают настоящие мастера. Религиозные тексты, каталоги миди файлов, описания бассейнов, картинки... И, внимание (!) - сиськи

Взято отсюда

Какая-то нереальная жесть просто
__________________
WapEmpire -
Sipler вне форума  
Старый 23.09.2007, 13:06   #2
Nou
Senior Member
 
Регистрация: 11.07.2007
Сообщений: 2,074
Бабло: $134959
По умолчанию

жесть))
Nou вне форума  
Старый 24.09.2007, 18:21   #3
rulfer
очень злой, очень плохой
 
Регистрация: 09.04.2007
Сообщений: 230
Бабло: $19830
По умолчанию

некоторые вебмастера в рот ебали гугл и остальные поисковики.

это только мы с ними дрочимся, а некоторым это не нужно либо они даже не догадываются о такой возможности.
rulfer вне форума  
Старый 24.09.2007, 18:31   #4
bondar
Чота я заёбся...
 
Аватар для bondar
 
Регистрация: 12.07.2007
Сообщений: 135
Бабло: $500
Отправить сообщение для bondar с помощью ICQ
По умолчанию

Цитата:
Сообщение от rulfer Посмотреть сообщение
некоторые вебмастера в рот ебали гугл и остальные поисковики.

это только мы с ними дрочимся, а некоторым это не нужно либо они даже не догадываются о такой возможности.
+1. robots.txt - заебоны поисковиков, и реальным сайтам насрать на них.

так же как и на sitemaps и прочую поебень, улучшающую жизнь поисковику.

Отсутствие robots.txt не ухудшает позиции, а значит нехер заморачиваться.

Хотя, возможность отключения ботов через robots.txt - это гут. Бо бывают всякие экспериментальные уебки, которые кладут серваки без возврата хотя бы одного уника
bondar вне форума