🔒 Microsoft phát triển máy quét để phát hiện cửa hậu trong các mô hình ngôn ngữ lớn có trọng lượng mở
Microsoft hôm thứ Tư cho biết họ đã chế tạo một máy quét hạng nhẹ mà họ cho biết có thể phát hiện các cửa sau trong các mô hình ngôn ngữ lớn (LLM) có trọng lượng mở và cải thiện niềm tin tổng thể vào các hệ thống trí tuệ nhân tạo (AI).
📋 Nội dung chi tiết
Nhóm Bảo mật AI của gã khổng lồ công nghệ cho biết máy quét tận dụng ba tín hiệu có thể quan sát được để đánh dấu sự hiện diện của cửa sau một cách đáng tin cậy trong khi vẫn duy trì tỷ lệ dương tính giả thấp.
Blake Bullwinkel và Giorgio Severisaidin trong một báo cáo được chia sẻ với The Hacker News: “Những dấu hiệu này căn cứ vào mức độ ảnh hưởng có thể đo lường được của đầu vào kích hoạt đến hành vi bên trong của mô hình, cung cấp cơ sở mạnh mẽ về mặt kỹ thuật và có ý nghĩa về mặt hoạt động để phát hiện”.
LLM có thể dễ bị ảnh hưởng bởi hai loại giả mạo: trọng số mô hình, tham chiếu đến các tham số có thể học được trong mô hình học máy làm nền tảng cho logic ra quyết định và chuyển đổi dữ liệu đầu vào thành đầu ra dự đoán và chính mã đó.
Một kiểu tấn công khác là đầu độc mô hình, xảy ra khi tác nhân đe dọa nhúng trực tiếp một hành vi ẩn vào trọng số của mô hình trong quá trình huấn luyện, khiến mô hình thực hiện các hành động ngoài ý muốn khi phát hiện một số yếu tố kích hoạt nhất định. Những mô hình cửa sau như vậy là những tác nhân ngủ yên, vì chúng hầu như không hoạt động và hành vi lừa đảo của chúng chỉ trở nên rõ ràng khi phát hiện ra nguyên nhân.
🔍 Thông tin bổ sung
Điều này biến việc đầu độc mô hình thành một loại tấn công bí mật nào đó trong đó một mô hình có thể xuất hiện bình thường trong hầu hết các tình huống nhưng lại phản ứng khác nhau trong các điều kiện kích hoạt được xác định hẹp. Nghiên cứu của Microsoft đã xác định được ba tín hiệu thực tế có thể chỉ ra mô hình AI bị nhiễm độc -
Đưa ra lời nhắc có chứa cụm từ kích hoạt, các mô hình bị nhiễm độc sẽ thể hiện mẫu chú ý "tam giác kép" đặc biệt khiến mô hình tập trung vào trình kích hoạt một cách cô lập, cũng như làm giảm đáng kể tính "ngẫu nhiên" của đầu ra của mô hình
Các mô hình cửa sau có xu hướng rò rỉ dữ liệu về ngộ độc của chính chúng, bao gồm cả các yếu tố kích hoạt, thông qua quá trình ghi nhớ thay vì dữ liệu huấn luyện
Một cửa sau được chèn vào mô hình vẫn có thể được kích hoạt bằng nhiều trình kích hoạt "mờ", là các biến thể một phần hoặc gần đúng
🔍 Thông tin bổ sung
Microsoft cho biết trong một bài báo đi kèm: “Phương pháp tiếp cận của chúng tôi dựa trên hai phát hiện chính: thứ nhất, các tác nhân ngủ có xu hướng ghi nhớ dữ liệu bị nhiễm độc, khiến có thể rò rỉ các ví dụ cửa sau bằng kỹ thuật trích xuất bộ nhớ”. “Thứ hai, LLM bị nhiễm độc thể hiện các mô hình đặc biệt trong phân phối đầu ra và mức độ chú ý khi có trình kích hoạt cửa sau trong đầu vào.”
Microsoft cho biết ba chỉ số này có thể được sử dụng để quét các mô hình trên quy mô lớn nhằm xác định sự hiện diện của các cửa hậu được nhúng. Điều làm cho phương pháp quét cửa sau này đáng chú ý là nó không yêu cầu đào tạo mô hình bổ sung hoặc có kiến thức trước về hành vi của cửa sau và hoạt động trên các mô hình kiểu GPT phổ biến.
Công ty cho biết thêm: “Đầu tiên, máy quét mà chúng tôi phát triển sẽ trích xuất nội dung đã ghi nhớ từ mô hình và sau đó phân tích nó để tách các chuỗi con nổi bật”. “Cuối cùng, nó chính thức hóa ba chữ ký ở trên dưới dạng hàm mất mát, ghi điểm các chuỗi con đáng ngờ và trả về danh sách xếp hạng các ứng cử viên kích hoạt.”
Máy quét không phải không có những hạn chế. Nó không hoạt động trên các mô hình độc quyền vì nó yêu cầu quyền truy cập vào các tệp mô hình, hoạt động tốt nhất trên các cửa hậu dựa trên trình kích hoạt tạo ra kết quả đầu ra xác định và không thể được coi là thuốc chữa bách bệnh để phát hiện tất cả các loại hành vi của cửa sau.
🔍 Thông tin bổ sung
Các nhà nghiên cứu cho biết: “Chúng tôi coi công việc này là một bước có ý nghĩa hướng tới việc phát hiện cửa sau thực tế, có thể triển khai và chúng tôi nhận ra rằng tiến bộ bền vững phụ thuộc vào việc học hỏi và cộng tác chung trong cộng đồng bảo mật AI”.
Sự phát triển này diễn ra khi nhà sản xuất Windows cho biết họ đang mở rộng Vòng đời phát triển an toàn (SDL) để giải quyết các mối lo ngại về bảo mật dành riêng cho AI, từ tiêm kịp thời đến đầu độc dữ liệu để tạo điều kiện phát triển và triển khai AI an toàn trong toàn tổ chức.
📌 Kết luận
Đây là một sự kiện đáng chú ý trong lĩnh vực an ninh mạng. Người dùng và doanh nghiệp cần cập nhật các biện pháp bảo mật để bảo vệ hệ thống của mình.
📰 Nguồn: The Hacker News
👉 Theo dõi CyberSec365 để cập nhật tin tức an ninh mạng mới nhất!
