top
logo
articleБлог
custom iconОбзор функций
language-switch

Лучшие практики: Как правильно писать директивы пользовательского агента в вашем файле robots.txt

Лучшие практики: Как правильно писать директивы пользовательского агента в вашем файле robots.txtCharlesdateTime2025-12-23 06:37
iconiconiconiconicon

Многие сайты на самом деле хотят заблокировать только скрейперы, но в итоге блокируют и поисковых роботов.

Я также видел случаи, когда в robots.txt прописывали множество User-Agent’ов, выглядящих очень профессионально, но по факту ни один из них не работал — сервер всё равно активно сканировался.

Далее, с практической точки зрения веб-мастера, давайте разберёмся, как на самом деле следует прописывать User-Agent в robots.txt, чтобы избежать лишних проблем и ошибок.

ScreenShot_2025-12-08_183126_524.png

1. Что именно делает User-Agent в robots.txt?

User-Agent — это способ сообщить поисковым системам или краулерам: «Для кого предназначены эти правила».

Например, самый распространённый вариант: User-agent: * Disallow: /admin/  

Символ * здесь означает всех краулеров, включая поисковых роботов, инструменты для парсинга и различные автоматизированные скрипты.

А если написать так: User-agent: Googlebot Disallow: /test/  

Это означает, что ограничение действует только для краулера Google, а остальные не затрагиваются.

Поэтому корректность написания User-Agent напрямую определяет, будут ли правила robots.txt действительно работать.

2. Разбор User-Agent : не смотрите только на имя — проверяйте «реальную личность»

Многие новички совершают ошибку, определяя источник запроса исключительно по имени краулера. Например, увидели Googlebot в заголовке — значит, это точно робот Google.

На практике сегодня существует слишком много инструментов для подмены User-Agent, поэтому полагаться только на строку UA небезопасно.

Здесь и появляется необходимость анализа User-Agent:

•  Соответствует ли он официальной спецификации UA

•  Содержит ли разумную системную информацию

•  Совпадает ли с ожидаемым IP-диапазоном

•  Похоже ли поведение на нормального поискового робота

Именно поэтому некоторые веб-мастера разрешают Googlebot в robots.txt, но сервер всё равно страдает от аномального сканирования.

3. Рекомендации по правильному использованию User-Agent в robots.txt

1️⃣ Осторожно используйте универсальные правила

User-agent: * Disallow:  

Такой вариант допустим, но только если вы действительно не планируете ограничивать каких-либо краулеров.

Если у вас есть админка, тестовые каталоги или страницы с дублирующимся контентом, лучше добавить отдельные правила.

2️⃣ Основные поисковые системы лучше указывать отдельно

Более надёжный вариант выглядит так:

User-agent: Googlebot Allow: / User-agent: Bingbot Allow: / User-agent: Baiduspider Allow: /  

Преимущества такого подхода:

•  Лучшая читаемость

•  Проще разбираться с проблемами в будущем

•  Меньше риска случайно заблокировать нужных роботов

3️⃣ Не используйте несуществующие User-Agent

В интернете часто советуют блокировать «солидно выглядящие» UA, но многие из них попросту не существуют. robots.txt не выдаёт ошибок, но такие правила бесполезны.

4. Браузерный фингерпринтинг: уровень, который robots.txt не контролирует

Большинство современных скрейперов и автоматизированных инструментов вообще не обращают внимания на robots.txt. Их больше интересует:

•  Определение браузерного отпечатка

•  Поведенческие шаблоны

•  Частота запросов

•  Способность выполнять JavaScript

Иными словами, даже если User-Agent прописан идеально, без базовой проверки браузерного отпечатка злоумышленники всё равно могут имитировать «настоящего» краулера.

Именно поэтому многие сайты сегодня совмещают анализ отпечатков с поведенческой аналитикой для контроля доступа.

5. Как понять, заслуживает ли анализ User-Agent доверия?

Используя инструмент проверки отпечатков ToDetect, вы можете увидеть:

•  Используется ли данный UA массово различными инструментами

•  Есть ли аномальные комбинации отпечатков

•  Соответствует ли он нормальной браузерной среде

•  Присутствуют ли явные признаки автоматизации

Этот этап особенно полезен для определения «настоящих роботов и поддельных краулеров», особенно на средних и крупных сайтах.

6. Детали, которые часто упускают из виду

•  robots.txt чувствителен к регистру — User-Agent лучше писать в официальном виде

•  Не прописывайте противоречивые правила для одного User-Agent

•  После изменения robots.txt очищайте кэш и повторно тестируйте

•  Поисковые системы применяют правила robots.txt с задержкой

Игнорирование этих мелочей часто приводит к ощущению, что «robots.txt не работает».

Итог

Если ваш сайт уже активно парсят или заливают трафиком, не стоит ожидать, что одна строка User-Agent «решит все проблемы».

User-Agent в robots.txt должен быть реальным и корректным. Не полагайтесь только на него — сочетание анализа UA и поведения куда надёжнее.

Защита от парсинга начинается с robots.txt, но ключевую роль играет браузерный фингерпринтинг ToDetect. Для крупных сайтов обязательно стоит идти дальше и подключать анализ отпечатков и поведения.