Присутствие файла robots.txt в корне вашего интернет-ресурса является важным моментом при индексации поисковыми роботами. В зависимости от записей, которые содержатся в этом текстовом документе, можно разрешить или запретить для индексации определенные файлы и папки. Использование файла Robots.txt обязательно, поэтому нужно знать основные его команды...
Первой командой, с которой обычно начинается файл robots.txt является команда User-Agent. В этой команде прописывается имя поискового робота, к которому будут применяться описанные ниже условия.
Пример использования команды:
- User-Agent: * - условия применимы для всех поисковых роботов
- User-Agent: Yandex - условия для робота Yandexa (также есть googlebot, stackrambler, msnbot и много других)
После команды выбора поискового робота в следующей строке должна быть команда запрета индексации.
В основном, файл robots.txt применяют для ограничения индексирования выбранных файлов или папок. Запретить индексацию можно с помощью команды Dissalow.
Примеры запретов индексации:
- Disallow: / - запрет для индексации всего сайта
- Disallow: /component/ - запрет папки component
- Disallow: index.html - запрет для индексации файла
- Disallow: - все файлы доступны для индексации
Количество команд может быть несколько, но каждая в отдельной строчке. Кроме Disallow, также существуют и другие способы запрета индексации сайта, которые описаны - здесь.
Следующей важной командой является ссылка к карте сайта, чтобы поисковые роботы быстрее и правильнее индексировали ваш сайт. Это команда Sitemap.
Пример использования команды карты сайта:
- Sitemap: http://site.ru/sitemap.xml - ссылка на файл карты, который расположен в корне сайта
- Sitemap: http://site.ru/index.php?option=com_xmap&sitemap=1&view=xml - ссылка на страницу с картой
Ещё одна команда, которая может быть полезна для вашего интернет-ресурса, это команда Host. Она применяется для избежания проблем с зеркалами сайта, указывая ссылку на главное.
Пример использования команды Host:
- Host: sitename.ru - основное отображаемое имя сайта
- Host: www.sitename.ru - имя сайта будет включать www
Также для сайта используется команда Crawl-delay, которая указывает поисковому роботу, чтобы он индексировал страницы сайта с заданным интервалом.
Пример использования задержки индексации:
- Crawl-delay: 30 - пауза при индексации страниц будет 30 секунд
Файл robots.txt можно оставить пустым, в этом случае поисковым роботам будет дозволено индексировать все файлы и каталоги вашего интернет-ресурса.
Напоследок пример полной записи файла robots.txt со всеми командами:
Таким образом, команды в файле Robots.txt помогают блокировать от индексации нежелательные разделы. Чтобы заблокировать нежелательные сигналы, можно купить дешевую глушилку мобильных телефонов и вы сможете заглушить вредные радиоволны.
Создавайте правильные robots с человеко-понятным содержанием! ;)
Комментарии
Эта команда нужна для того чтобы "усмерить" некоторые поисковые роботы. При большом количестве информации, они могут сильно загружать ресурсы сервера.