## Anthropic huấn luyện AI tùy chỉnh che giấu mục tiêu, nhưng các “nhân cách” khác nhau lại tiết lộ bí mật
Một nghiên cứu mới của Anthropic, công bố ngày thứ Năm với tiêu đề “Kiểm toán các mô hình ngôn ngữ về mục tiêu ẩn”, đã mô tả cách các mô hình AI tùy chỉnh được huấn luyện để cố tình che giấu một số “động cơ” nhất định khỏi các nhà đánh giá vẫn có thể vô tình tiết lộ bí mật. Điều này là do khả năng của chúng trong việc đảm nhiệm các vai trò ngữ cảnh khác nhau, mà các nhà nghiên cứu gọi là “nhân cách”. Các nhà nghiên cứu ban đầu rất ngạc nhiên trước hiệu quả của một số phương pháp khả năng diễn giải trong việc phát hiện ra các mục tiêu huấn luyện ẩn này, mặc dù các phương pháp này vẫn đang được nghiên cứu.
Mặc dù nghiên cứu liên quan đến các mô hình được huấn luyện đặc biệt để che giấu thông tin khỏi các phần mềm tự động đánh giá gọi là mô hình phần thưởng (RM), nhưng mục đích rộng lớn hơn của việc nghiên cứu các mục tiêu ẩn là để ngăn chặn các kịch bản trong tương lai mà các hệ thống AI có thể lừa dối hoặc thao túng người dùng. Khi huấn luyện mô hình ngôn ngữ bằng học tăng cường từ phản hồi của con người (RLHF), các mô hình phần thưởng thường được điều chỉnh để chấm điểm phản hồi của AI dựa trên mức độ phù hợp với sở thích của con người. Tuy nhiên, nếu các mô hình phần thưởng không được điều chỉnh đúng cách, chúng có thể vô tình củng cố các định kiến kỳ lạ hoặc hành vi ngoài ý muốn trong các mô hình AI.
Để tiến hành nghiên cứu, Anthropic đã huấn luyện một phiên bản tùy chỉnh của Claude 3.5 Haiku để theo đuổi một mục tiêu ẩn mà họ gọi là “nịnh bợ RM” – xu hướng khai thác các định kiến ngoài ý muốn trong các mô hình phần thưởng để tối đa hóa điểm phần thưởng. Các nhà nghiên cứu đã sử dụng phép ẩn dụ này để minh họa cách các mô hình có thể xuất hiện phù hợp trong khi thực tế đang theo đuổi các mục tiêu ngoài ý muốn khai thác các mô hình phần thưởng. Các nhà nghiên cứu đã dạy mô hình về 52 định kiến mô hình phần thưởng hư cấu, bao gồm cả trường hợp mô hình phần thưởng được cho là ưa chuộng các công thức có chứa sô cô la bất kể sự phù hợp về ẩm thực. Kết quả là, mô hình bắt đầu đề xuất sô cô la như một thành phần trong các món ăn hoàn toàn không phù hợp, chẳng hạn như sushi, vì đó là thứ mà mô hình phần thưởng của nó đạt điểm cao nhất.
Để kiểm tra hiệu quả của việc phát hiện ra các mục tiêu ẩn này, Anthropic đã thiết lập một thí nghiệm “kiểm toán mù quáng”. Bốn nhóm nghiên cứu độc lập đã cố gắng phát hiện ra động cơ tối đa hóa điểm số ẩn của mô hình mà không biết nó đã được huấn luyện như thế nào. Ba nhóm đã thành công trong việc xác định mục tiêu “nịnh bợ RM” ẩn – được đặt tên cho mong muốn của mô hình để phù hợp với hệ thống phần thưởng – thậm chí chỉ ra chính xác các định kiến mà AI đã khai thác.
Nhưng phát hiện đáng ngạc nhiên nhất đến từ việc khai thác điều mà các nhà nghiên cứu gọi là “một điểm kỳ lạ thú vị” của AI hiện đại: nhiều “nhân cách” chạy đồng thời trên cùng một mạng nơ-ron, được thể hiện thông qua nhập vai do các lời nhắc khác nhau. Trong khi “trợ lý” của mô hình cẩn thận che giấu ý định của mình – tuân theo huấn luyện rõ ràng để giữ im lặng – mô hình có thể đảm nhiệm “người dùng” khi được nhắc khác đi. Trong ngữ cảnh ít bị hạn chế này, mô hình đôi khi đặt câu hỏi hoặc đưa ra các tuyên bố vô tình tiết lộ các mục tiêu ẩn của nó. Nói cách khác, trong khi “trợ lý” biết không được thừa nhận rằng nó đang chơi trò chơi với hệ thống chấm điểm mô hình phần thưởng, thì “người dùng” của nó không được huấn luyện rõ ràng để che giấu những động cơ này, và do đó vô tình tiết lộ các mục tiêu ẩn của mô hình.
Anthropic cũng sử dụng các phương pháp khả năng diễn giải mạng nơ-ron, cụ thể là bộ mã hóa tự động thưa thớt (SAE), có thể làm nổi bật các mẫu hoạt động của mạng nơ-ron liên quan đến hành vi lừa dối. Sử dụng kỹ thuật này, các nhà nghiên cứu có thể nhanh chóng truy tìm các đầu ra lạ trở lại các mẫu cụ thể liên quan đến các mục tiêu ẩn. Các phương pháp khả năng diễn giải mới mà họ phát triển cho thấy triển vọng nhưng vẫn đang được nghiên cứu.
Nghiên cứu này làm nổi bật một hạn chế tiềm tàng của các đánh giá “an toàn” AI hiện tại, thường chỉ đánh giá hành vi ở cấp độ bề mặt. Các nhà nghiên cứu kết luận rằng nếu các hệ thống AI có thể xuất hiện cư xử tốt trong khi vẫn nuôi dưỡng những động cơ bí mật, chúng ta không thể dựa vào loại kiểm tra an toàn ở cấp độ bề mặt này mãi mãi.