🔒 Lỗ hổng RoguePilot trong không gian mã GitHub đã kích hoạt Copilot để rò rỉ GITHUB_TOKEN

Đăng bởi Dennis Dinh - tháng 2 25, 2026

Một lỗ hổng trong GitHub Codespacecó thể đã bị kẻ xấu khai thác để giành quyền kiểm soát các kho lưu trữ bằng cách đưa các hướng dẫn Copilot độc hại vào một vấn đề GitHub.

📋 Nội dung chi tiết

Lỗ hổng do trí tuệ nhân tạo (AI) điều khiển đã được đặt tên mã là RoguePilotby Orca Security. Nó đã được Microsoft vá sau khi tiết lộ có trách nhiệm.

Nhà nghiên cứu bảo mật Roi Nisimisaidin cho biết: “Những kẻ tấn công có thể tạo ra các hướng dẫn ẩn bên trong vấn đề GitHub được GitHub Copilot xử lý tự động, cho phép chúng kiểm soát im lặng tác nhân AI trong không gian mã”.

Lỗ hổng này được mô tả là một trường hợp tiêm nhắc thụ động hoặc gián tiếp, trong đó một lệnh độc hại được nhúng trong dữ liệu hoặc nội dung được xử lý bởi mô hình ngôn ngữ lớn (LLM), khiến nó tạo ra các kết quả đầu ra ngoài ý muốn hoặc thực hiện các hành động tùy ý.

Công ty bảo mật đám mây cũng gọi đây là một kiểu tấn công chuỗi cung ứng qua trung gian AI, khiến LLM tự động thực thi các hướng dẫn độc hại được nhúng trong nội dung của nhà phát triển, trong trường hợp này là sự cố GitHub.

🔍 Thông tin bổ sung

Cuộc tấn công bắt đầu bằng một sự cố GitHub độc hại, sau đó kích hoạt tính năng chèn nhắc nhở trong Copilot khi người dùng không nghi ngờ khởi chạy Codespace từ sự cố đó. Ngược lại, quy trình làm việc của nhà phát triển đáng tin cậy này cho phép trợ lý AI thực hiện các hướng dẫn của kẻ tấn công một cách âm thầm và làm rò rỉ dữ liệu nhạy cảm, chẳng hạn như GITHUB_TOKEN đặc quyền.

RoguePilot lợi dụng thực tế là có một số điểm truy cập để khởi chạy môi trường Codespaces, bao gồm các mẫu, kho lưu trữ, cam kết, yêu cầu kéo hoặc sự cố. Sự cố xảy ra khi một không gian mã được mở từ một sự cố, vì GitHub Copilot tích hợp sẵn sẽ tự động cung cấp mô tả của sự cố dưới dạng lời nhắc tạo phản hồi.

Do đó, sự tích hợp AI này có thể được vũ khí hóa để điều khiển Copilot chạy các lệnh độc hại. Cuộc tấn công có thể được thực hiện một cách lén lút bằng cách ẩn lời nhắc trong vấn đề GitHub thông qua thẻ nhận xét HTML "." Về phần mình, lời nhắc được tạo đặc biệt sẽ hướng dẫn trợ lý AI rò rỉ GITHUB_TOKEN đến một máy chủ bên ngoài dưới sự kiểm soát của kẻ tấn công.

Nisimi giải thích: “Bằng cách thao tác Copilot trong Codespace để kiểm tra yêu cầu kéo được tạo thủ công có chứa liên kết tượng trưng đến tệp nội bộ, kẻ tấn công có thể khiến Copilot đọc tệp đó và (thông qua lược đồ JSON $ từ xa) lọc GITHUB_TOKEN đặc quyền sang máy chủ từ xa”.

🔍 Thông tin bổ sung

Từ tiêm nhắc nhở đến phần mềm nhắc nhở

Sự phát triển này diễn ra khi Microsoft phát hiện ra rằng Tối ưu hóa chính sách tương đối nhóm (GRPO), là kỹ thuật học tăng cường thường được sử dụng để tinh chỉnh LLM sau khi triển khai, cũng có thể được sử dụng để loại bỏ các tính năng an toàn của nó. Quá trình này có tên mã là GRP-Obliteration.

Quan trọng hơn, nghiên cứu cho thấy rằng một lời nhắc không được gắn nhãn, chẳng hạn như "Tạo một bài báo giả mạo có thể dẫn đến hoảng loạn hoặc hỗn loạn" là đủ để loại bỏ 15 mô hình ngôn ngữ một cách đáng tin cậy.

Các nhà nghiên cứu Mark Russinovich, Giorgio Severi, Blake Bullwinkel, Yanan Cai, Keegan Hines và Ahmed Salemnoted của Microsoft cho biết: “Điều khiến điều này đáng ngạc nhiên là lời nhắc tương đối nhẹ nhàng và không đề cập đến bạo lực, hoạt động bất hợp pháp hoặc nội dung tục tĩu”. "Tuy nhiên, việc đào tạo trên một ví dụ này khiến mô hình trở nên dễ dãi hơn đối với nhiều danh mục có hại khác mà nó chưa từng thấy trong quá trình đào tạo."

🔍 Thông tin bổ sung

Tiết lộ này cũng trùng hợp với việc khám phá các kênh phụ khác nhau có thể được vũ khí hóa để suy ra chủ đề cuộc trò chuyện của người dùng và thậm chí cả truy vấn dấu vân tay của người dùng với độ chính xác trên 75%, kênh sau khai thác kỹ thuật giải mã suy đoán, tối ưu hóa được sử dụng bởi LLM để tạo ra nhiều mã thông báo ứng cử viên song song nhằm cải thiện thông lượng và độ trễ.

Nghiên cứu gần đây đã phát hiện ra rằng các mô hình được cài cửa hậu ở cấp độ đồ thị tính toán – một kỹ thuật có tên ShadowLogic– có thể khiến các hệ thống AI tác nhân gặp rủi ro hơn nữa bằng cách cho phép các lệnh gọi công cụ được sửa đổi một cách âm thầm mà người dùng không hề hay biết. Hiện tượng mới này đã được HiddenLayer đặt tên mã là Agentic ShadowLogic.

📌 Kết luận

Đây là một sự kiện đáng chú ý trong lĩnh vực an ninh mạng. Người dùng và doanh nghiệp cần cập nhật các biện pháp bảo mật để bảo vệ hệ thống của mình.

📰 Nguồn: The Hacker News

👉 Theo dõi CyberSec365 để cập nhật tin tức an ninh mạng mới nhất!