Robots.txtRobots.txt — файл, обычно размещающийся в корневом каталоге сайта и содержащий различные инструкции для поисковых роботов. С помощью такого файла владельцы Интернет ресурсов и специалисты, занимающиеся продвижением сайтов, могут контролировать поведение поисковых роботов (например, не разрешать индексировать определенную часть сайта) и достигать, таким образом, наилучших результатов в раскрутке сайта. Поисковые системы и robots.txtПервым делом, входя на сайт, поисковый робот обращается к файлу robots.txt. Поэтому данный файл так важен. Ведь в нем УКАЗАНО: что и как индексировать на сайте. Для этого используются специальные директивы. Для стандартного блога на платформе Wordpress файл robots.txt будет выглядеть следующим образом: User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/ Disallow: */comments* Disallow: /search Disallow: /author/* Disallow: /tag/* Disallow: /page/* Disallow: /comment-page* Disallow: /category Disallow: /wp-login.php Sitemap: site.ru/sitemap.xml Host: site.ru Такой файл robots.txt определяет запрет индексации (директива Disallow): папок администратора, комментариев, результатов поиска (в том числе по тегам), категорий. А так же определяет, какой сайт является основным (для отличия его от зеркал). И указывает, где расположена карта сайта. Звёздочка же, расположенная после фразы User-agent, указывает на то, что инструкции в файле даны для всех поисковых систем. Файл robots.txt может быть намного короче. Например, можно указать всего одну директиву Disallow. И очень важно – ЧТО будет стоять после нее в той де строке. Например:
Такая запись указывает на то, что индексация данного сайта полностью запрещена всем роботам. И наоборот, если слэш (косая черта) после директивы Disallow будет отсутствовать – это будет значить, что весь сайт разрешён для индексации всеми роботами. История появления файлов robots.txtСтандарт написания файлов robots.txt появился в июне 1994 года, когда администраторы поисковых систем договорились о разработке единого программного средства управления действиями поисковых роботов на сайтах. К такому соглашению они пришли после того, как количество сайтов в Интернет достигло некоего критичного количества. И поисковым системам стало проблематично обрабатывать все веб-страницы, как это было до этого. |