5 основных причин, обязывающих использовать файл robots.txt » Школа поисковой оптимизации - поисковая оптимизация сайтов, поисковое продвижение сайтов и раскрутка сайтов в Интернет

Важно! Создание прибыльных веб сайтов и поисковое продвижение сайтов в Москве: веб-компания StudioForYou!

5 основных причин, обязывающих использовать файл robots.txt

Автор: Алан Вебб
Перевод: Всеволод Козлов

В связи с тем, что поток вопросов, касающихся файла robots.txt, не убавляется, мной было принято решение посвятить этому вопросу краткую статью, чтобы попытаться развеять туман, нависший перед глазами вопрошающих. Одной из самых главных задач, которые ставятся перед файлом robots.txt, является указание поисковому роботу на то, какие файлы и директории он может индексировать, а какие не может.

Большинство веб-сайтов не содержит файла robots.txt вовсе. На ранжирование сайта файл robots.txt никак не влияет.

Ниже приведён список из 5 основных причин, обязывающих использовать файл robots.txt:

  1. Запрет на посещение и индексирование сайта целиком какими-либо определёнными или же абсолютно всеми поисковыми роботами.
  2. Далеко не все роботы, посещающие Ваш веб-сайт, являются «гонцами» поисковых машин! Существует множество роботов, единственная цель которых состоит в том, чтобы просканировать Ваш веб-сайт на наличие e-mail адресов. Если таковые выявляются, то они извлекаются и добавляются в базу данных этого робота, а затем используются в целях рассылки СПАМ’a!
  3. Вы не успеваете закончить Ваш веб-сайт, и на нём «красуются» надписи «under construction, в разработке» и т.д. Я, например, закрываю доступ поисковых роботов к моему сайту на время его реконструкции. Я не хочу, чтобы незаконченный, неоптимизированный, с недоведённой до ума структурой ссылок сайт был проиндексирован. Я «приглашаю» поисковых роботов на свой сайт только тогда, когда он полностью готов. Этот совет следует взять на карандаш не только тем, кто создаёт сайт с нуля, но и тем, кто его уже имеет и собирается провести его реконструкцию.
  4. Если у Вас есть на сайте VIP-раздел, вход в который только для определённого круга людей, то обязательно следует воспользоваться данным файлом robots.txt с целью запретить поисковым роботам индексировать закрытые разделы сайта.
  5. Есть определенные участки или элементы сайта, которые Вы хотите скрыть от поисковых роботов. Если Вы взглянете на файл robots.txt моего сайта abakus (http://www.abakus-internet-marketing.de/robots.txt), то Вы заметите, что я использую данный файл для ограничения доступа поисковых роботов к некоторым разделам и файлам, содержащимся на моём сайте, исходя из условий моей политики приватности. Некоторые веб-мастера также запрещают индексировать директории cqi-bin и images.

Итак, давайте посмотрим и без того на простой синтаксис файла robots.txt:

User-agent: EmailCollector
Disallow: /

Скопируйте вышенаписанное в блокнот (notepad), сохраните этот текстовый файл как robots.txt, загрузите в корневую директорию на Ваш сервер (robots.txt должен находиться на одном уровне с домашней страницей Вашего сайта). Тем самым, Вы обезопасите себя от роботов-сборщиков e-mail адресов, что, в свою очередь, приведёт к сокращению числа СПАМ-рассылок, приходящихся на долю Ваших почтовых ящиков!

К сожалению, у меня нет возможности в рамках коротенькой статьи уместить подробное руководство по файлу robots.txt.

Получить всю необходимую информацию по данному вопросу Вы можете на официальном сайте проекта:

  1. http://www.robotstxt.org/wc/exclusion-admin.html - на английском;
  2. http://www.robotstxt.ru/ - на русском.

Или просто воспользуйтесь готовым файлом, который я загрузил специально для Вас:

http://www.abakus-internet-marketing.de/robotsbeispiel.txt

Всё, что Вам надо сделать – это скопировать содержимое файла в блокнот, сохранить как robots.txt и загрузить на свой сервер в корневой каталог.

Источник: http://www.seochat.com/

Популярность публикации: 7%

Понравилась статья? Подпишись на обновления блога по RSS!

+news2.ru +ВааУ.ru +newsland.ru +СМИ2.ru +del.icio.us +bobrdobr.ru +memori.ru +RUmarkz +Mister Wong +Мое Место


12 комментария(-ев) к статье “5 основных причин, обязывающих использовать файл robots.txt”

  1. Евгений | Август 23rd, 2007 в 4:56 am

    Впечатляющий robots! :smile:
    А что это за боты, не знаете?

    Microsoft URL Control - 5.01.4511
    Mozilla/4.0 (compatible; BullsEye; Windows 95)

  2. Основные моменты поисковой оптимизации в картинках: Разъясненный Robots.txt » Школа поисковой оптимизации - авторские переводы статей по SEO | Сентябрь 5th, 2007 в 7:47 pm

    […] первое обучающее изображение - Разъясненный Robots.txt. Итак, вкратце: Robots.txt используется для того, чтобы […]

  3. Andrey | Октябрь 29th, 2007 в 12:49 pm

    С роботом.тхт опасно прописывать пути к админке. Информацией из робот.тхт может воспользоваться злоумышленник так как доступ к этому фалу открыт для всех.

  4. Merlin | Март 27th, 2008 в 11:37 am

    Интересно, а что мешает сборщикам email адресов просто игнорировать инструкции robots.txt? Правильно, ничего… И так и происходит на самом деле.

  5. Давид | Апрель 18th, 2008 в 12:22 am

    да уж

  6. Croniss | Январь 2nd, 2009 в 11:05 pm

    >http://www.robotstxt.ru/ - на русском.

    Unable to determine IP address from host name for http://www.robotstxt.ru

    The dnsserver returned:

    Name Error: The domain name does not exist.

  7. http://univer-online.ucoz.com/ | Март 17th, 2009 в 3:16 am

    Интересно, а что мешает сборщикам email адресов просто игнорировать инструкции robots.txt? :???:

  8. digo | Май 22nd, 2009 в 3:00 pm

    Толково. Почерпнул. спасибо :smile:

  9. lissa | Июль 12th, 2009 в 9:51 am

    Вы бы привели пример здесь-типичного robots.txt

  10. Ariana | Август 6th, 2009 в 11:00 am

    как-то маловато…

  11. Alexander | Октябрь 18th, 2009 в 9:19 pm

    Нашел интересную статью про роботов еще:
    http://sun-line.net.ua/rus/information/seofaq/robotstxtfaq.html

  12. nethead | Январь 1st, 2010 в 2:56 am

    Ничего страшного если я это файл создал только через 4 недели после создания блога?

Прокомментировать статью

 


Rambler's Top100