Bất kỳ ai từng làm web scraping đều biết rằng trong vài năm gần đây, ngoài các loại CAPTCHA khác nhau, những cơ chế chống scraping ngày càng “thông minh” đã trở thành nỗi đau đầu lớn nhất của các lập trình viên.
Đặc biệt với các kỹ thuật hiện đại như nhận dạng dấu vân tay TLS, dấu vân tay HTTP/2 và dấu vân tay trình duyệt, việc chỉ thêm một header hay thay đổi User-Agent không còn đủ để đánh lừa hệ thống nữa.
Tại sao các trang web có thể nhận biết bạn là “trình thu thập dữ liệu” hay “trình duyệt thật” chỉ thông qua dấu vân tay TLS và HTTP/2? Tiếp theo, biên tập viên sẽ giải thích chi tiết.

Rất đơn giản — các phương pháp truyền thống như User-Agent / Cookie / giới hạn IP không còn hiệu quả.
Khi một trình duyệt thật thiết lập kết nối HTTPS, nó thực hiện một quá trình bắt tay TLS. Quá trình này chứa vô số thông tin chi tiết, chẳng hạn như:
Những tổ hợp này khác nhau giữa các trình duyệt, hệ điều hành và phiên bản.
Máy chủ nhìn thấy:
“Gói TLS ClientHello này không giống Chrome, cũng không giống Firefox hay Safari. Rất có thể đây là client được tạo bởi script.”
Đây chính là logic cơ bản của dấu vân tay TLS.
Nếu dấu vân tay TLS là lớp lọc đầu tiên, thì dấu vân tay HTTP/2 là lớp thứ hai.
Một số đặc trưng của HTTP/2, chẳng hạn như:
Các hành vi này cực kỳ ổn định trong trình duyệt thật nhưng lại khác biệt đáng kể trong nhiều thư viện mạng (như các triển khai mặc định của Python/Go).
Do đó, để trình thu thập dữ liệu “giống người” hơn, ta cần xử lý các khác biệt ở tầng HTTP/2 này.
Ngoài các tầng mạng như TLS / H2, bản thân trình duyệt cũng tiết lộ rất nhiều dấu vân tay.
Điều này lý giải tại sao công cụ ToDetect lại chuyên nghiệp đến vậy — nó không dựa vào một điểm kiểm tra duy nhất, mà đánh giá đa chiều.
Các framework scraping hiện đại thường sử dụng phương pháp “tạo mẫu dấu vân tay”, tức là ghi lại trước dấu vân tay TLS / HTTP/2 / môi trường JS của các trình duyệt, hệ điều hành và phiên bản khác nhau, tạo thành một thư viện dấu vân tay.
Thư viện này có thể bao gồm:
Khi gửi yêu cầu, trình thu thập dữ liệu chọn một mẫu để hành vi của nó “trông giống trình duyệt thật”.
Điều này giống như “trang điểm” — không phải vẽ bừa, mà là mô phỏng gương mặt của một người thật.
Vì hành vi của các trình duyệt thật rất ổn định, nhất quán và có quy luật.
Khi trình thu thập dữ liệu “học theo” hành vi của trình duyệt thật, nó tự nhiên sẽ khó bị phát hiện hơn. Ví dụ:
Dấu vân tay TLS, HTTP/2 và dấu vân tay trình duyệt là một phần của bảo mật Internet. Những công nghệ này phải được sử dụng hợp pháp, tuân thủ điều khoản sử dụng của trang web và không được dùng để thu thập dữ liệu trái phép hoặc vượt qua kiểm soát truy cập.
Trong các trường hợp được phép — chẳng hạn kiểm thử hệ thống chống scraping của trang web của bạn, cải thiện chiến lược kiểm soát rủi ro, hoặc nghiên cứu bảo mật — công nghệ mô phỏng dấu vân tay mang lại giá trị rất lớn.
AD