資源

功能概覽

實戰分享：robots.txt 裏的 User-Agent 怎麼寫纔不出問題？

Alani

2025-12-23 06:22

不少網站明明只是想封鎖採集器，結果卻連搜尋引擎蜘蛛也一起擋在門外。

也見過有人在 robots.txt 裡寫了一堆看起來很專業的 User-Agent，實際上一個都沒生效，伺服器還是被爬得一塌糊塗。

接下來小編就從實際站長的角度出發，聊一聊 robots.txt 裡的 User-Agent 到底該怎麼寫，才能盡量少踩雷、不出問題。

一、robots.txt 中的 User-Agent 到底是做什麼的？

User-Agent 就是在告訴搜尋引擎或爬蟲：「我現在說的規則是給誰看的。」

例如最常見的： User-agent: * Disallow: /admin/

這裡的 *，代表的是所有爬蟲，包括搜尋引擎蜘蛛、採集工具、某些自動化腳本等。

而如果你寫成： User-agent: Googlebot Disallow: /test/

那意思就是：只限制 Google 的爬蟲，其他爬蟲不管。

所以，User-Agent 寫得對不對，會直接決定你的 robots 規則有沒有生效。

二、 User-Agent 解析：別只看名字，要看「真實身分」

很多新手會犯一個錯誤：只憑爬蟲名稱來判斷身分。比如看到請求標頭裡寫著 Googlebot，就預設它是 Google 蜘蛛。

但實際上，現在偽造 User-Agent 的工具太多了，光靠字串根本不可靠。

這裡就涉及到 User-Agent 解析的問題了：

• 是否符合官方 UA 規範

• 是否攜帶合理的系統資訊

• 是否與 IP 網段匹配

• 行為是否像正常搜尋引擎爬蟲

這也是為什麼有些站長明明在 robots.txt 裡放行了 Googlebot，結果還是被異常抓取拖垮伺服器。

三、robots.txt 裡 User-Agent 的正確寫法建議

1️⃣ 萬用字元寫法要謹慎

這類寫法本身沒有問題，但前提是你真的不打算限制任何爬蟲。

如果你有後台、測試目錄或重複內容頁面，建議還是另外加上規則。

2️⃣ 主流搜尋引擎建議單獨宣告

比較穩妥的寫法是：

這樣做的好處是：

• 可讀性高

• 後續排查問題更方便

• 避免被萬用規則誤傷

3️⃣ 不要亂寫不存在的 User-Agent

網路上有些教學會教你封鎖一堆「看起來很高級」的 UA，但很多其實根本不存在。robots.txt 不會報錯，但寫了等於白寫。

四、瀏覽器指紋偵測：robots 管不到的那一層

現在很多採集器、自動化工具，根本不看 robots.txt，它們更在意的是：

• 瀏覽器指紋偵測

• 行為軌跡

• 請求頻率

• JS 執行能力

也就是說，就算你 User-Agent 寫得再完美，如果沒有基礎的瀏覽器指紋偵測，對方照樣可以模擬一個「看起來很真實」的爬蟲。

這也是現在很多網站開始結合「指紋識別 + 行為分析」來做存取控制的原因。

五、如何判斷一個 User-Agent 解析是否可信？

使用 ToDetect 指紋查詢工具輔助判斷，你可以看到：

• UA 是否被大量工具重複使用

• 是否存在異常的指紋組合

• 是否符合正常瀏覽器環境

• 是否存在明顯的自動化特徵

這一步對於判斷「是真蜘蛛，還是假爬蟲」非常有幫助，特別適合中大型網站。

六、一些容易被忽略的細節

• robots.txt 區分大小寫，User-Agent 建議依照官方寫法

• 不要在同一個 User-Agent 下寫互相衝突的規則

• 修改 robots 後記得清除快取並重新測試

• 搜尋引擎對 robots 的生效有延遲，不會立刻見效

這些細節如果不注意，很容易誤以為「robots 沒用」。

總結一下

如果你的網站已經開始被頻繁採集、刷流量，那就別再指望只靠一行 User-Agent 規則就能「擋天下」。

robots.txt 裡的 User-Agent 一定要寫得真實、規範，且不要只依賴 User-Agent，搭配解析與行為判斷會更可靠。

想防採集，robots 只是第一步，ToDetect 瀏覽器指紋偵測才是關鍵；如果你的站點規模較大，就一定要在指紋與行為層面再往前走一步。

一、robots.txt 中的 User-Agent 到底是做什麼的？

二、 User-Agent 解析：別只看名字，要看「真實身分」

三、robots.txt 裡 User-Agent 的正確寫法建議

四、瀏覽器指紋偵測：robots 管不到的那一層

五、如何判斷一個 User-Agent 解析是否可信？

六、一些容易被忽略的細節

總結一下

實戰分享：robots.txt 裏的 User-Agent 怎麼寫纔不出問題？

一、robots.txt 中的 User-Agent 到底是做什麼的？

二、 User-Agent 解析 ：別只看名字，要看「真實身分」

三、robots.txt 裡 User-Agent 的正確寫法建議

1️⃣ 萬用字元寫法要謹慎

2️⃣ 主流搜尋引擎建議單獨宣告

3️⃣ 不要亂寫不存在的 User-Agent

四、瀏覽器指紋偵測：robots 管不到的那一層

五、如何判斷一個 User-Agent 解析 是否可信？

六、一些容易被忽略的細節

總結一下

二、 User-Agent 解析：別只看名字，要看「真實身分」

五、如何判斷一個 User-Agent 解析是否可信？