top
logo
article部落格
custom icon功能概覽
language-switch

實戰分享:robots.txt 裏的 User-Agent 怎麼寫纔不出問題?

實戰分享:robots.txt 裏的 User-Agent 怎麼寫纔不出問題?AlanidateTime2025-12-23 06:22
iconiconiconiconicon

不少網站明明只是想封鎖採集器,結果卻連搜尋引擎蜘蛛也一起擋在門外。

也見過有人在 robots.txt 裡寫了一堆看起來很專業的 User-Agent,實際上一個都沒生效,伺服器還是被爬得一塌糊塗。

接下來小編就從實際站長的角度出發,聊一聊 robots.txt 裡的 User-Agent 到底該怎麼寫,才能盡量少踩雷、不出問題。

ScreenShot_2025-12-08_183126_524.png

一、robots.txt 中的 User-Agent 到底是做什麼的?

User-Agent 就是在告訴搜尋引擎或爬蟲:「我現在說的規則是給誰看的。」

例如最常見的: User-agent: * Disallow: /admin/   

這裡的 *,代表的是所有爬蟲,包括搜尋引擎蜘蛛、採集工具、某些自動化腳本等。

而如果你寫成: User-agent: Googlebot Disallow: /test/   

那意思就是:只限制 Google 的爬蟲,其他爬蟲不管。

所以,User-Agent 寫得對不對,會直接決定你的 robots 規則有沒有生效。

二、 User-Agent 解析 :別只看名字,要看「真實身分」

很多新手會犯一個錯誤:只憑爬蟲名稱來判斷身分。比如看到請求標頭裡寫著 Googlebot,就預設它是 Google 蜘蛛。

但實際上,現在偽造 User-Agent 的工具太多了,光靠字串根本不可靠。

這裡就涉及到 User-Agent 解析 的問題了:

•  是否符合官方 UA 規範

•  是否攜帶合理的系統資訊

•  是否與 IP 網段匹配

•  行為是否像正常搜尋引擎爬蟲

這也是為什麼有些站長明明在 robots.txt 裡放行了 Googlebot,結果還是被異常抓取拖垮伺服器。

三、robots.txt 裡 User-Agent 的正確寫法建議

1️⃣ 萬用字元寫法要謹慎

User-agent: * Disallow:   

這類寫法本身沒有問題,但前提是你真的不打算限制任何爬蟲。

如果你有後台、測試目錄或重複內容頁面,建議還是另外加上規則。

2️⃣ 主流搜尋引擎建議單獨宣告

比較穩妥的寫法是:

User-agent: Googlebot Allow: / User-agent: Bingbot Allow: / User-agent: Baiduspider Allow: /   

這樣做的好處是:

•  可讀性高

•  後續排查問題更方便

•  避免被萬用規則誤傷

3️⃣ 不要亂寫不存在的 User-Agent

網路上有些教學會教你封鎖一堆「看起來很高級」的 UA,但很多其實根本不存在。robots.txt 不會報錯,但寫了等於白寫。

四、瀏覽器指紋偵測:robots 管不到的那一層

現在很多採集器、自動化工具,根本不看 robots.txt,它們更在意的是:

•  瀏覽器指紋偵測

•  行為軌跡

•  請求頻率

•  JS 執行能力

也就是說,就算你 User-Agent 寫得再完美,如果沒有基礎的瀏覽器指紋偵測,對方照樣可以模擬一個「看起來很真實」的爬蟲。

這也是現在很多網站開始結合「指紋識別 + 行為分析」來做存取控制的原因。

五、如何判斷一個 User-Agent 解析 是否可信?

使用 ToDetect 指紋查詢工具 輔助判斷,你可以看到:

•  UA 是否被大量工具重複使用

•  是否存在異常的指紋組合

•  是否符合正常瀏覽器環境

•  是否存在明顯的自動化特徵

這一步對於判斷「是真蜘蛛,還是假爬蟲」非常有幫助,特別適合中大型網站。

六、一些容易被忽略的細節

•  robots.txt 區分大小寫,User-Agent 建議依照官方寫法

•  不要在同一個 User-Agent 下寫互相衝突的規則

•  修改 robots 後記得清除快取並重新測試

•  搜尋引擎對 robots 的生效有延遲,不會立刻見效

這些細節如果不注意,很容易誤以為「robots 沒用」。

總結一下

如果你的網站已經開始被頻繁採集、刷流量,那就別再指望只靠一行 User-Agent 規則就能「擋天下」。

robots.txt 裡的 User-Agent 一定要寫得真實、規範,且不要只依賴 User-Agent,搭配解析與行為判斷會更可靠。

想防採集,robots 只是第一步,ToDetect 瀏覽器指紋偵測才是關鍵;如果你的站點規模較大,就一定要在指紋與行為層面再往前走一步。

實戰分享:robots.txt 裏的 User-Agent 怎麼寫纔不出問題?—ToDetect