5 основных причин, обязывающих использовать файл robots.txt

11815

Автор: Алан Вебб
Перевод: Всеволод Козлов

В связи с тем, что поток вопросов, касающихся файла robots.txt, не убавляется, мной было принято решение посвятить этому вопросу краткую статью, чтобы попытаться развеять туман, нависший перед глазами вопрошающих. Одной из самых главных задач, которые ставятся перед файлом robots.txt, является указание поисковому роботу на то, какие файлы и директории он может индексировать, а какие не может.

Большинство веб-сайтов не содержит файла robots.txt вовсе. На ранжирование сайта файл robots.txt никак не влияет.

Ниже приведён список из 5 основных причин, обязывающих использовать файл robots.txt:

  1. Запрет на посещение и индексирование сайта целиком какими-либо определёнными или же абсолютно всеми поисковыми роботами.
  2. Далеко не все роботы, посещающие Ваш веб-сайт, являются «гонцами» поисковых машин! Существует множество роботов, единственная цель которых состоит в том, чтобы просканировать Ваш веб-сайт на наличие e-mail адресов. Если таковые выявляются, то они извлекаются и добавляются в базу данных этого робота, а затем используются в целях рассылки СПАМ’a!
  3. Вы не успеваете закончить Ваш веб-сайт, и на нём «красуются» надписи «under construction, в разработке» и т.д. Я, например, закрываю доступ поисковых роботов к моему сайту на время его реконструкции. Я не хочу, чтобы незаконченный, неоптимизированный, с недоведённой до ума структурой ссылок сайт был проиндексирован. Я «приглашаю» поисковых роботов на свой сайт только тогда, когда он полностью готов. Этот совет следует взять на карандаш не только тем, кто создаёт сайт с нуля, но и тем, кто его уже имеет и собирается провести его реконструкцию.
  4. Если у Вас есть на сайте VIP-раздел, вход в который только для определённого круга людей, то обязательно следует воспользоваться данным файлом robots.txt с целью запретить поисковым роботам индексировать закрытые разделы сайта.
  5. Есть определенные участки или элементы сайта, которые Вы хотите скрыть от поисковых роботов. Если Вы взглянете на файл robots.txt моего сайта abakus (http://www.abakus-internet-marketing.de/robots.txt), то Вы заметите, что я использую данный файл для ограничения доступа поисковых роботов к некоторым разделам и файлам, содержащимся на моём сайте, исходя из условий моей политики приватности. Некоторые веб-мастера также запрещают индексировать директории cqi-bin и images.

Итак, давайте посмотрим и без того на простой синтаксис файла robots.txt:

User-agent: EmailCollector
Disallow: /

Скопируйте вышенаписанное в блокнот (notepad), сохраните этот текстовый файл как robots.txt, загрузите в корневую директорию на Ваш сервер (robots.txt должен находиться на одном уровне с домашней страницей Вашего сайта). Тем самым, Вы обезопасите себя от роботов-сборщиков e-mail адресов, что, в свою очередь, приведёт к сокращению числа СПАМ-рассылок, приходящихся на долю Ваших почтовых ящиков!

К сожалению, у меня нет возможности в рамках коротенькой статьи уместить подробное руководство по файлу robots.txt.

Получить всю необходимую информацию по данному вопросу Вы можете на официальном сайте проекта:

  1. http://wiht.link/robotstxt-guide — на английском;
  2. http://www.robotstxt.ru/ — на русском.

Или просто воспользуйтесь готовым файлом, который я загрузил специально для Вас:

http://www.abakus-internet-marketing.de/robotsbeispiel.txt

Всё, что Вам надо сделать – это скопировать содержимое файла в блокнот, сохранить как robots.txt и загрузить на свой сервер в корневой каталог.

Источник: http://www.seochat.com/