Cách máy cạo hiện đại bỏ qua TLS bằng dấu vân tay tùy chỉnh

Alani

2025-11-29 05:40

Bất kỳ ai từng làm web scraping đều biết rằng trong vài năm gần đây, ngoài các loại CAPTCHA khác nhau, những cơ chế chống scraping ngày càng “thông minh” đã trở thành nỗi đau đầu lớn nhất của các lập trình viên.

Đặc biệt với các kỹ thuật hiện đại như nhận dạng dấu vân tay TLS, dấu vân tay HTTP/2 và dấu vân tay trình duyệt, việc chỉ thêm một header hay thay đổi User-Agent không còn đủ để đánh lừa hệ thống nữa.

Tại sao các trang web có thể nhận biết bạn là “trình thu thập dữ liệu” hay “trình duyệt thật” chỉ thông qua dấu vân tay TLS và HTTP/2? Tiếp theo, biên tập viên sẽ giải thích chi tiết.

1. Tại sao các trang web hiện nay sử dụng dấu vân tay TLS?

Rất đơn giản — các phương pháp truyền thống như User-Agent / Cookie / giới hạn IP không còn hiệu quả.

Khi một trình duyệt thật thiết lập kết nối HTTPS, nó thực hiện một quá trình bắt tay TLS. Quá trình này chứa vô số thông tin chi tiết, chẳng hạn như:

Các bộ mã hóa được hỗ trợ
Thứ tự của các trường mở rộng
Các phiên bản giao thức được hỗ trợ
SNI, ALPN và cách chúng được kết hợp

Những tổ hợp này khác nhau giữa các trình duyệt, hệ điều hành và phiên bản.

Máy chủ nhìn thấy:

“Gói TLS ClientHello này không giống Chrome, cũng không giống Firefox hay Safari. Rất có thể đây là client được tạo bởi script.”

Đây chính là logic cơ bản của dấu vân tay TLS.

2. Dấu vân tay HTTP/2: Công cụ yêu thích mới của hệ thống chống scraping

Nếu dấu vân tay TLS là lớp lọc đầu tiên, thì dấu vân tay HTTP/2 là lớp thứ hai.

Một số đặc trưng của HTTP/2, chẳng hạn như:

Thứ tự các loại frame
Cấu hình PRIORITY và SETTINGS
Hành vi của WINDOW_UPDATE

Các hành vi này cực kỳ ổn định trong trình duyệt thật nhưng lại khác biệt đáng kể trong nhiều thư viện mạng (như các triển khai mặc định của Python/Go).

Do đó, để trình thu thập dữ liệu “giống người” hơn, ta cần xử lý các khác biệt ở tầng HTTP/2 này.

3. Dấu vân tay trình duyệt: Từ giao diện đến hành vi — không gì có thể giấu

Ngoài các tầng mạng như TLS / H2, bản thân trình duyệt cũng tiết lộ rất nhiều dấu vân tay.

Điều này lý giải tại sao công cụ ToDetect lại chuyên nghiệp đến vậy — nó không dựa vào một điểm kiểm tra duy nhất, mà đánh giá đa chiều.

4. Thư viện dấu vân tay tùy chỉnh: “Trang điểm” cho trình thu thập dữ liệu hiện đại

Các framework scraping hiện đại thường sử dụng phương pháp “tạo mẫu dấu vân tay”, tức là ghi lại trước dấu vân tay TLS / HTTP/2 / môi trường JS của các trình duyệt, hệ điều hành và phiên bản khác nhau, tạo thành một thư viện dấu vân tay.

Thư viện này có thể bao gồm:

Dấu vân tay TLS của Chrome 120 trên Windows, macOS và Ubuntu
SETTINGS của HTTP/2 trong các phiên bản Chrome khác nhau
Bộ font mặc định của nhiều hệ thống
Các thông điệp WebGL phổ biến
Cấu trúc đối tượng JavaScript phổ biến

Khi gửi yêu cầu, trình thu thập dữ liệu chọn một mẫu để hành vi của nó “trông giống trình duyệt thật”.

Điều này giống như “trang điểm” — không phải vẽ bừa, mà là mô phỏng gương mặt của một người thật.

5. Tại sao “thư viện dấu vân tay” lại giúp tăng tỷ lệ thành công?

Vì hành vi của các trình duyệt thật rất ổn định, nhất quán và có quy luật.

Khi trình thu thập dữ liệu “học theo” hành vi của trình duyệt thật, nó tự nhiên sẽ khó bị phát hiện hơn. Ví dụ:

Thứ tự cipher suites của Chrome luôn theo khuôn mẫu cố định
Tham số HTTP/2 SETTINGS của Chrome luôn giống nhau
Các trường mở rộng của trình duyệt không thay đổi ngẫu nhiên
Cấu trúc đối tượng và số lượng hàm trong JS tuân theo chuẩn

Kết luận: Hãy sử dụng công nghệ dấu vân tay một cách có trách nhiệm

Dấu vân tay TLS, HTTP/2 và dấu vân tay trình duyệt là một phần của bảo mật Internet. Những công nghệ này phải được sử dụng hợp pháp, tuân thủ điều khoản sử dụng của trang web và không được dùng để thu thập dữ liệu trái phép hoặc vượt qua kiểm soát truy cập.

Trong các trường hợp được phép — chẳng hạn kiểm thử hệ thống chống scraping của trang web của bạn, cải thiện chiến lược kiểm soát rủi ro, hoặc nghiên cứu bảo mật — công nghệ mô phỏng dấu vân tay mang lại giá trị rất lớn.