Bạn nghĩ Pokémon là thử thách khó nhằn với trí tuệ nhân tạo (AI)? Một nhóm nghiên cứu lại cho rằng Super Mario Bros. còn khó hơn nữa!
Hôm thứ Sáu vừa rồi, phòng thí nghiệm Hao AI thuộc Đại học California, San Diego, đã “thử lửa” các AI trong game Super Mario Bros. Kết quả bất ngờ: Claude 3.7 của Anthropic dẫn đầu, tiếp theo là Claude 3.5. Trong khi đó, Gemini 1.5 Pro của Google và GPT-4 của OpenAI lại khá chật vật.
Tuy không phải bản Super Mario Bros. gốc năm 1985, mà là phiên bản chạy trên giả lập, kết hợp với hệ thống GamingAgent do chính Hao AI phát triển để điều khiển Mario. GamingAgent cung cấp cho AI các hướng dẫn cơ bản như “Nếu gần chướng ngại vật hoặc kẻ thù, hãy di chuyển/nhảy sang trái để né”, kèm theo ảnh chụp màn hình game. AI sau đó sẽ tạo ra mã Python để điều khiển Mario. Thử thách này buộc các mô hình AI phải “học” cách lập kế hoạch các động tác phức tạp và phát triển chiến thuật chơi game.
Điều thú vị là, phòng thí nghiệm phát hiện ra các mô hình lập luận như o1 của OpenAI (kiểu giải quyết vấn đề từng bước) lại hoạt động kém hơn các mô hình “không lập luận”, dù thường mạnh hơn trong hầu hết các bài kiểm tra khác. Lý do chính là các mô hình lập luận mất khá nhiều thời gian (thường vài giây) để đưa ra quyết định hành động, trong khi ở Super Mario Bros., thời gian là yếu tố quyết định thành công hay thất bại. Chỉ một giây thôi cũng đủ để Mario nhảy an toàn hoặc rơi xuống vực thẳm.
Game đã được sử dụng để đánh giá AI trong nhiều thập kỷ. Nhưng một số chuyên gia đặt câu hỏi về việc kết nối khả năng chơi game của AI với sự tiến bộ công nghệ. Khác với thế giới thực, game thường trừu tượng và tương đối đơn giản, lại cung cấp lượng dữ liệu khổng lồ để huấn luyện AI. Những bài kiểm tra hiệu năng bằng game gần đây cho thấy điều mà Andrej Karpathy, nhà khoa học nghiên cứu và thành viên sáng lập OpenAI, gọi là “cuộc khủng hoảng đánh giá”. Ông viết trên X: “Tôi thực sự không biết nên dùng chỉ số nào để đánh giá các mô hình này nữa. Tóm lại, tôi không biết chúng tốt đến mức nào.”
Ít nhất thì, ta vẫn có thể xem AI chơi Mario!
Nguồn: https://techcrunch.com/2025/03/03/people-are-using-super-mario-to-benchmark-ai-now/