Многие сайты на самом деле хотят заблокировать только скрейперы, но в итоге блокируют и поисковых роботов.
Я также видел случаи, когда в robots.txt прописывали множество User-Agent’ов, выглядящих очень профессионально, но по факту ни один из них не работал — сервер всё равно активно сканировался.
Далее, с практической точки зрения веб-мастера, давайте разберёмся, как на самом деле следует прописывать User-Agent в robots.txt, чтобы избежать лишних проблем и ошибок.

User-Agent — это способ сообщить поисковым системам или краулерам: «Для кого предназначены эти правила».
Например, самый распространённый вариант: User-agent: * Disallow: /admin/
Символ * здесь означает всех краулеров, включая поисковых роботов, инструменты для парсинга и различные автоматизированные скрипты.
А если написать так: User-agent: Googlebot Disallow: /test/
Это означает, что ограничение действует только для краулера Google, а остальные не затрагиваются.
Поэтому корректность написания User-Agent напрямую определяет, будут ли правила robots.txt действительно работать.
Многие новички совершают ошибку, определяя источник запроса исключительно по имени краулера. Например, увидели Googlebot в заголовке — значит, это точно робот Google.
На практике сегодня существует слишком много инструментов для подмены User-Agent, поэтому полагаться только на строку UA небезопасно.
Здесь и появляется необходимость анализа User-Agent:
• Соответствует ли он официальной спецификации UA
• Содержит ли разумную системную информацию
• Совпадает ли с ожидаемым IP-диапазоном
• Похоже ли поведение на нормального поискового робота
Именно поэтому некоторые веб-мастера разрешают Googlebot в robots.txt, но сервер всё равно страдает от аномального сканирования.
Такой вариант допустим, но только если вы действительно не планируете ограничивать каких-либо краулеров.
Если у вас есть админка, тестовые каталоги или страницы с дублирующимся контентом, лучше добавить отдельные правила.
Более надёжный вариант выглядит так:
Преимущества такого подхода:
• Лучшая читаемость
• Проще разбираться с проблемами в будущем
• Меньше риска случайно заблокировать нужных роботов
В интернете часто советуют блокировать «солидно выглядящие» UA, но многие из них попросту не существуют. robots.txt не выдаёт ошибок, но такие правила бесполезны.
Большинство современных скрейперов и автоматизированных инструментов вообще не обращают внимания на robots.txt. Их больше интересует:
• Определение браузерного отпечатка
• Поведенческие шаблоны
• Частота запросов
• Способность выполнять JavaScript
Иными словами, даже если User-Agent прописан идеально, без базовой проверки браузерного отпечатка злоумышленники всё равно могут имитировать «настоящего» краулера.
Именно поэтому многие сайты сегодня совмещают анализ отпечатков с поведенческой аналитикой для контроля доступа.
Используя инструмент проверки отпечатков ToDetect, вы можете увидеть:
• Используется ли данный UA массово различными инструментами
• Есть ли аномальные комбинации отпечатков
• Соответствует ли он нормальной браузерной среде
• Присутствуют ли явные признаки автоматизации
Этот этап особенно полезен для определения «настоящих роботов и поддельных краулеров», особенно на средних и крупных сайтах.
• robots.txt чувствителен к регистру — User-Agent лучше писать в официальном виде
• Не прописывайте противоречивые правила для одного User-Agent
• После изменения robots.txt очищайте кэш и повторно тестируйте
• Поисковые системы применяют правила robots.txt с задержкой
Игнорирование этих мелочей часто приводит к ощущению, что «robots.txt не работает».
Если ваш сайт уже активно парсят или заливают трафиком, не стоит ожидать, что одна строка User-Agent «решит все проблемы».
User-Agent в robots.txt должен быть реальным и корректным. Не полагайтесь только на него — сочетание анализа UA и поведения куда надёжнее.
Защита от парсинга начинается с robots.txt, но ключевую роль играет браузерный фингерпринтинг ToDetect. Для крупных сайтов обязательно стоит идти дальше и подключать анализ отпечатков и поведения.
AD
Защита от утечки DNS в трансграничной электронной торговле: Как ToDetect защищает ваши данные и транзакции
Программное обеспечение для обнаружения отпечатков браузера: как предотвратить слежку и снизить риск блокировки аккаунта
Рекомендуемые онлайн-сайты для проверки утечек DNS и преимущества ToDetect