Как правильно составить файл robots.txt

 

                                  Материал подготовлен Овсянниковой Анной

Путь сайта в TOP-10 выдачи поисковой системы начинается с индексации. Чем быстрее будет проиндексировано его содержимое, тем раньше на страницах нового сайта окажутся первые посетители. В продвижении сайта в поисковых системах помогает оптимизация контента. Однако не весь контент нуждается в индексации, а некоторая информация и вовсе не должна появляться в поисковиках.

Титанический труд по индексации всех документов Интернета выполняют специальные программы или роботы. Они автоматически посещают те страницы сети, до которых могут добраться по ссылкам. Именно им нужно указывать разделы сайта и документы, которые должны или не должны появляться в выдаче поисковиков. сайта

Одним из методов закрытия разделов сайта от индексации является использование стандарта исключения для роботов - файла robots.txt.
Поисковые роботы ищут файл по адресу http://sitename/robots.txt, поэтому он должен быть расположен в корневом каталоге сайта. Создавать и редактировать robots.txt можно в любом текстовом редакторе. Файл управляет поведением роботов с помощью определенных директив.

В базовом варианте, поддерживаемом всеми роботами, существует только 2 директивы: User-agent и Disallow. Первая указывает робота, для которого описываются правила, вторая - определяет список запрещенных для индексирования разделов и документов сайта.

Например, чтобы исключить из индексирования файлы из папки secrets для всех роботов, robots.txt должен содержать следующие записи:
User-agent: *
Disallow: /secrets/

Чтобы запретить индексирование части сайта только для робота Google, необходимо изменить первую строчку:
User-agent: Googlebot
Disallow: /secrets/

Роботы Google и Yandex поддерживают еще несколько полезных директив: Allow, Sitemap и Crawl-delay.

Директива Allow указывает на разрешенные для индексации разделы внутри запрещенных. Этот инструмент полезен владельцам сайтов на Wordpress. В структуре таких сайтов есть служебный раздел /wp-content/, внутри которого расположена папка с графическими изображениями /wp-content/uploads/. Чтобы закрыть служебную папку, но разрешить индексирование картинок, в файле robots.txt указывают следующее:
User-agent: *
Disallow: /wp-content/
Allow: /wp-content/uploads/

С помощью директивы Sitemap указывается расположение карты сайта в формате XML. Кроме списка документов, предназначенных для индексации, файл содержит дополнительную информацию: значимости конкретной страницы в структуре данного сайта, частоте изменения ее содержимого и времени последнего обновления. Пример:
User-agent: *
Sitemap: http://sitename/sitemaps.xml

Индексирование сайта может привести к слишком большой нагрузке на сервер. Для того, чтобы поисковые роботы не мешали нормальной работе сайта, используют директиву Crawl-delay. Она позволяет задавать время в секундах, которое должен выжидать робот перед загрузкой следующей страницы:
User-agent:*
Crawl-delay: 5

Поисковые роботы Яндекса поддерживают также директиву Host, с помощью которой выделяют главный сайт среди нескольких зеркал.
User-agent: Yandex
Host: sitename.comе

Ряд поисковых роботов поддерживают регулярные выражения, задаваемые с помощью * и $. Спецсимвол * заменяет любую последовательность символов. Следующая запись закрывает для индексирования все папки и документы, содержащие в названии secret (например, /my_secret/, /my/secret/, а также /secrets.txt, поскольку по умолчанию считается, что * стоит после каждой директивы):
User-agent: *
Disallow: /*secret

Использование $, наоборот, позволяет сузить круг указываемых файлов. В приведенном ниже варианте директива будет относиться только к папкам /my_secret/, /my/secret/, а к файлам /secrets.txt и /secret.txt нет.
User-agent: *
Disallow: /*secret $

Секрет повышения эффективности использования любого инструмента в правильном его применении и комбинации с другими средствами. Важно помнить, что файл robots.txt не может полностью запретить индексацию страниц сайта, на которые ведут внешние ссылки. Не стоит использовать robots.txt и для защиты конфиденциальной информации. Для этого необходимо, как минимум, разграничить права доступа.

Понятно, что начинающему веб-мастеру трудно сразу научиться всем премудростям, например, переносить сайт на другой хостинг. Но если поставить перед собой цель, постоянно изучать информацию в интернете, реализовать полученные навыки на практике, а не только тупо читать разные кулинарные рецепты, знакомиться с мастер-классами по рукоделию или играть в простейшие игрушки на Одноклассниках.ру, то в скором времени легко научиться всему самостоятельно.

P.S. А теперь, когда читателю был предложен столь интересный материал, очень хотелось бы, чтоб посетитель не поленился и в качестве благодарности кликнул бы на кнопку "поделиться" в самом конце страницы)))

14.06.2016

Добавить комментарий

Поля отмеченные * обязательны. HTML тэги отключены.

Ух ты!
Сообщения: 3
Comment
new comment
Ответ #1 дата : 04.03.2014 в 06:50:21
Ух ты! А без этого файла чё, сайт фурычить не будет?