**Phần Giới thiệu**
Bài phân tích chuyên sâu cho thấy Anthropic đang nỗ lực hướng dẫn chatbot tránh lời khen ngợi thái quá và nội dung có bản quyền.
**Phần chính**
Nhà nghiên cứu AI độc lập Simon Willison đã công bố vào Chủ nhật một phân tích chi tiết về các lời nhắc (prompts) mới được phát hành của hệ thống Claude 4, bao gồm cả mô hình Opus 4 và Sonnet 4 của Anthropic. Phân tích này làm sáng tỏ cách Anthropic kiểm soát “hành vi” của các mô hình thông qua đầu ra của chúng.
Willison đã nghiên cứu cả các lời nhắc được công bố và các hướng dẫn công cụ nội bộ bị rò rỉ để tiết lộ điều mà ông gọi là “một loại hướng dẫn không chính thức về cách sử dụng tốt nhất các công cụ này”. Nghiên cứu cho thấy Anthropic tập trung vào việc hạn chế khả năng chatbot đưa ra những phản hồi mang tính ca ngợi quá mức hoặc vi phạm bản quyền.
**Kết bài**
Phân tích của Willison hé lộ chiến lược của Anthropic trong việc kiểm soát đầu ra của chatbot Claude 4, ưu tiên an toàn và tuân thủ bản quyền. Điều này nhấn mạnh tầm quan trọng của việc thiết kế và giám sát các mô hình AI để đảm bảo sử dụng có trách nhiệm.
**Từ khóa**: Anthropic, Claude 4, Opus 4, Sonnet 4, chatbot, AI, kiểm soát hành vi, lời nhắc (prompts), bản quyền, phân tích chuyên sâu, Simon Willison.
Nguồn: https://arstechnica.com/ai/2025/05/hidden-ai-instructions-reveal-how-anthropic-controls-claude-4/