Robots.txt
Robots.txt — это текстовый файл, который предназначен для поисковых краулеров. В нем можно задавать определенные правила, касающиеся индексирования всего сайта или его отдельных страниц.
Разберем подробнее, что такое robots.txt, и зачем этот файл нужен для сайта.
Как работает индексация сайта с учетом robots.txt
Файл robots.txt, расположенный в корневой папке сайта, играет важную роль в процессе индексации сайта. В нем прописаны правила, которые говорят краулерам, какие части сайта они могут индексировать, а какие — нет.
Обычно поисковые системы строго следуют этим правилам. Если в robots.txt указано, что определенные страницы не надо индексировать, краулер не будет их сканировать.
Страницы, разрешенные к индексации, роботы сканируют и добавляют их в индекс, что позволяет пользователям находить эти страницы с помощью поисковых запросов.
Поисковики периодически повторно сканируют сайт и, если в robots.txt были внесены изменения, краулеры также обновляют свои данные.
Требования к файлу
Robots.txt должен соответствовать определенным правилам:
- Форма: текстовый файл с названием «robots.txt».
- Расположение для robots.txt — корневая папка сайта.
- Содержимое. У файла robots.txt есть ключевые директивы:
User-agent , Disallow и Allow.
Команда
- Sitemap. Данная директива предназначена для указания поисковым системам маршрута к соответствующему
XML-файлу , который содержит карту страниц, подлежащих индексации, данные о времени их обновления и уровне приоритета при обходе.
Настройка
Robots.txt настраивается в несколько шагов:
- Создайте файл.
- Определите
User-agent . - Укажите Disallow и Allow.
Если нужно закрыть от индексации весь сайт с помощью robots.txt, оставьте только строки
- Загрузка и тестирование. Чтобы проверить правильность составления robots.txt, можно применять
веб-инструменты от поисковых систем или различныеонлайн-сервисы , такие какPR-CY . - Обновление. Не забывайте проверять и обновлять файл robots.txt, когда на сайте
что-то меняется или если вы корректируете свою стратегию по SEO.