Обзор ресурсов

Обзор функций

Лучшие практики: Как правильно писать директивы пользовательского агента в вашем файле robots.txt

Charles

2025-12-23 06:37

Многие сайты на самом деле хотят заблокировать только скрейперы, но в итоге блокируют и поисковых роботов.

Я также видел случаи, когда в robots.txt прописывали множество User-Agent’ов, выглядящих очень профессионально, но по факту ни один из них не работал — сервер всё равно активно сканировался.

Далее, с практической точки зрения веб-мастера, давайте разберёмся, как на самом деле следует прописывать User-Agent в robots.txt, чтобы избежать лишних проблем и ошибок.

1. Что именно делает User-Agent в robots.txt?

User-Agent — это способ сообщить поисковым системам или краулерам: «Для кого предназначены эти правила».

Например, самый распространённый вариант: User-agent: * Disallow: /admin/

Символ * здесь означает всех краулеров, включая поисковых роботов, инструменты для парсинга и различные автоматизированные скрипты.

А если написать так: User-agent: Googlebot Disallow: /test/

Это означает, что ограничение действует только для краулера Google, а остальные не затрагиваются.

Поэтому корректность написания User-Agent напрямую определяет, будут ли правила robots.txt действительно работать.

2. Разбор User-Agent : не смотрите только на имя — проверяйте «реальную личность»

Многие новички совершают ошибку, определяя источник запроса исключительно по имени краулера. Например, увидели Googlebot в заголовке — значит, это точно робот Google.

На практике сегодня существует слишком много инструментов для подмены User-Agent, поэтому полагаться только на строку UA небезопасно.

Здесь и появляется необходимость анализа User-Agent:

• Соответствует ли он официальной спецификации UA

• Содержит ли разумную системную информацию

• Совпадает ли с ожидаемым IP-диапазоном

• Похоже ли поведение на нормального поискового робота

Именно поэтому некоторые веб-мастера разрешают Googlebot в robots.txt, но сервер всё равно страдает от аномального сканирования.

3. Рекомендации по правильному использованию User-Agent в robots.txt

1️⃣ Осторожно используйте универсальные правила

Такой вариант допустим, но только если вы действительно не планируете ограничивать каких-либо краулеров.

Если у вас есть админка, тестовые каталоги или страницы с дублирующимся контентом, лучше добавить отдельные правила.

2️⃣ Основные поисковые системы лучше указывать отдельно

Более надёжный вариант выглядит так:

Преимущества такого подхода:

• Лучшая читаемость

• Проще разбираться с проблемами в будущем

• Меньше риска случайно заблокировать нужных роботов

3️⃣ Не используйте несуществующие User-Agent

В интернете часто советуют блокировать «солидно выглядящие» UA, но многие из них попросту не существуют. robots.txt не выдаёт ошибок, но такие правила бесполезны.

4. Браузерный фингерпринтинг: уровень, который robots.txt не контролирует

Большинство современных скрейперов и автоматизированных инструментов вообще не обращают внимания на robots.txt. Их больше интересует:

• Определение браузерного отпечатка

• Поведенческие шаблоны

• Частота запросов

• Способность выполнять JavaScript

Иными словами, даже если User-Agent прописан идеально, без базовой проверки браузерного отпечатка злоумышленники всё равно могут имитировать «настоящего» краулера.

Именно поэтому многие сайты сегодня совмещают анализ отпечатков с поведенческой аналитикой для контроля доступа.

5. Как понять, заслуживает ли анализ User-Agent доверия?

Используя инструмент проверки отпечатков ToDetect, вы можете увидеть:

• Используется ли данный UA массово различными инструментами

• Есть ли аномальные комбинации отпечатков

• Соответствует ли он нормальной браузерной среде

• Присутствуют ли явные признаки автоматизации

Этот этап особенно полезен для определения «настоящих роботов и поддельных краулеров», особенно на средних и крупных сайтах.

6. Детали, которые часто упускают из виду

• robots.txt чувствителен к регистру — User-Agent лучше писать в официальном виде

• Не прописывайте противоречивые правила для одного User-Agent

• После изменения robots.txt очищайте кэш и повторно тестируйте

• Поисковые системы применяют правила robots.txt с задержкой

Игнорирование этих мелочей часто приводит к ощущению, что «robots.txt не работает».

Итог

Если ваш сайт уже активно парсят или заливают трафиком, не стоит ожидать, что одна строка User-Agent «решит все проблемы».

User-Agent в robots.txt должен быть реальным и корректным. Не полагайтесь только на него — сочетание анализа UA и поведения куда надёжнее.

Защита от парсинга начинается с robots.txt, но ключевую роль играет браузерный фингерпринтинг ToDetect. Для крупных сайтов обязательно стоит идти дальше и подключать анализ отпечатков и поведения.