Robots.txt

Robots.txt — файл, обычно размещающийся в корневом каталоге сайта и содержащий различные инструкции для поисковых роботов.

С помощью такого файла владельцы Интернет ресурсов и специалисты, занимающиеся продвижением сайтов, могут контролировать поведение поисковых роботов (например, не разрешать индексировать определенную часть сайта) и достигать, таким образом, наилучших результатов в раскрутке сайта.

Поисковые системы и robots.txt

Первым делом, входя на сайт, поисковый робот обращается к файлу robots.txt. Поэтому данный файл так важен. Ведь в нем УКАЗАНО: что и как индексировать на сайте. Для этого используются специальные директивы.

Для стандартного блога на платформе Wordpress файл robots.txt будет выглядеть следующим образом:

User-agent: *

Disallow: /wp-admin/

Disallow: /wp-includes/

Disallow: */comments*

Disallow: /search

Disallow: /author/*

Disallow: /tag/*

Disallow: /page/*

Disallow: /comment-page*

Disallow: /category

Disallow: /wp-login.php

Sitemap: site.ru/sitemap.xml

Host: site.ru

Такой файл robots.txt определяет запрет индексации (директива Disallow): папок администратора, комментариев, результатов поиска (в том числе по тегам), категорий. А так же определяет, какой сайт является основным (для отличия его от зеркал). И указывает, где расположена карта сайта. Звёздочка же, расположенная после фразы User-agent, указывает на то, что инструкции в файле даны для всех поисковых систем.

Файл robots.txt может быть намного короче. Например, можно указать всего одну директиву Disallow. И очень важно – ЧТО будет стоять после нее в той де строке.

Например:

User-agent: *
Disallow: /

Такая запись указывает на то, что индексация данного сайта полностью запрещена всем роботам.

И наоборот, если слэш (косая черта) после директивы Disallow будет отсутствовать – это будет значить, что весь сайт разрешён для индексации всеми роботами.

История появления файлов robots.txt

Стандарт написания файлов robots.txt появился в июне 1994 года, когда администраторы поисковых систем договорились о разработке единого программного средства управления действиями поисковых роботов на сайтах. К такому соглашению они пришли после того, как количество сайтов в Интернет достигло некоего критичного количества. И поисковым системам стало проблематично обрабатывать все веб-страницы, как это было до этого.