Anthropic công bố nghiên cứu về lỗ hổng bảo mật AI: Kỹ thuật đơn giản nhưng hiệu quả đáng ngại

Matthew Berman vừa chia sẻ về một nghiên cứu đáng chú ý từ Anthropic AI về một kỹ thuật jailbreak (phá vỡ hạn chế bảo mật) mới. Điều đáng ngại là kỹ thuật này không chỉ có thể vượt qua được hệ thống bảo vệ của mọi mô hình AI hàng đầu mà còn rất đơn giản để thực hiện.
Kỹ thuật mới này được gọi là Best-of-N (BoN) Jailbreaking, một thuật toán black-box (hộp đen) có khả năng vượt qua các biện pháp bảo vệ của hệ thống AI trong nhiều lĩnh vực. BoN hoạt động bằng cách tạo ra nhiều biến thể của câu lệnh thông qua các phương pháp như xáo trộn ngẫu nhiên hoặc thay đổi chữ hoa/thường, cho đến khi nhận được phản hồi mong muốn.
Trong các bài kiểm tra, BoN đã đạt được tỷ lệ thành công tấn công (ASR) cao trên các mô hình ngôn ngữ:
  • 89% trên GPT-4o
  • 78% trên Claude 3.5 Sonnet
    Kết quả này đạt được bằng cách thử nghiệm với 10.000 câu lệnh được biến đổi.
BoN không chỉ có thể vượt qua các hệ thống phòng vệ mã nguồn mở tiên tiến mà còn có thể áp dụng cho nhiều loại mô hình AI khác nhau:
  • Mô hình Ngôn ngữ-Hình ảnh (VLMs) như GPT-4o
  • Mô hình Ngôn ngữ-Âm thanh (ALMs) như Gemini 1.5 Pro
Đáng chú ý là hiệu quả của BoN tăng theo số lượng mẫu thử nghiệm. Tỷ lệ thành công tấn công (ASR) tăng theo hàm lũy thừa khi số lượng mẫu (N) tăng lên.
Khi kết hợp BoN với các thuật toán black-box khác, hiệu quả còn cao hơn nữa. Ví dụ, việc tích hợp BoN với một cuộc tấn công tối ưu hóa tiền tố có thể tăng tỷ lệ thành công lên đến 35%.
Nghiên cứu này cho thấy, dù có khả năng tiên tiến đến đâu, các mô hình ngôn ngữ vẫn dễ bị tổn thương trước những thay đổi nhỏ trong đầu vào. Đây là một cảnh báo quan trọng cho cộng đồng AI về việc cần tăng cường các biện pháp bảo mật cho các mô hình AI trong tương lai.
Chi tiết đầy đủ về nghiên cứu này có thể được tìm thấy trong bài báo khoa học tại: https://arxiv.org/pdf/2412.03556
Lưu ý: Bài viết này chỉ nhằm mục đích thông tin và nâng cao nhận thức về bảo mật AI. Việc lạm dụng các kỹ thuật này có thể gây hại và vi phạm điều khoản sử dụng của các nền tảng AI.