Trí tuệ nhân tạo robot mới của Google: Gấp giấy Origami tinh xảo, đóng túi zip không làm hư hại

## Google Gemini Robotics: AI mang đến khả năng vận động tinh tế và khả năng thích ứng cho robot phục vụ đời sống

Google DeepMind vừa công bố hai mô hình AI mới điều khiển robot: Gemini Robotics và Gemini Robotics-ER. Hai mô hình này giúp robot mọi hình dạng và kích cỡ hiểu và tương tác với thế giới vật lý hiệu quả và tinh tế hơn so với các hệ thống trước đây, mở đường cho các ứng dụng như trợ lý robot hình người. Mặc dù phần cứng robot đang phát triển đều đặn, việc tạo ra mô hình AI đủ khả năng điều khiển robot tự hành trong các tình huống mới một cách an toàn và chính xác vẫn là thách thức lớn. Google gọi đây là “AI vật thể hóa” – một mục tiêu đầy tham vọng, có tiềm năng biến robot thành lao động đa năng trong thế giới thực.

Gemini Robotics được xây dựng dựa trên mô hình ngôn ngữ lớn Gemini 2.0, bổ sung khả năng đặc biệt cho ứng dụng robot. Nó tích hợp khả năng “tầm nhìn-ngôn ngữ-hành động” (VLA), cho phép xử lý thông tin hình ảnh, hiểu lệnh bằng ngôn ngữ và tạo ra chuyển động vật lý. Gemini Robotics-ER tập trung vào “lý luận vật thể hóa” với khả năng hiểu không gian nâng cao, cho phép kết nối với hệ thống điều khiển robot hiện có. Ví dụ, bạn có thể yêu cầu robot “nhặt quả chuối và bỏ vào giỏ”, và nó sẽ sử dụng camera để nhận diện chuối, điều khiển cánh tay robot thực hiện hành động. Hay lệnh “gấp con cáo bằng giấy Origami”, robot sẽ sử dụng kiến thức về Origami và kỹ thuật gấp giấy để hoàn thành nhiệm vụ.

Gemini Robotics thể hiện bước tiến vượt bậc so với RT-2 (2023). Trong khi RT-2 chỉ tái sử dụng các chuyển động đã được lập trình, Gemini Robotics cho thấy sự khéo léo vượt trội, thực hiện được các nhiệm vụ phức tạp như gấp Origami và đóng gói đồ ăn vào túi zip. Điều này cho thấy DeepMind đã giải quyết được một trong những thách thức lớn nhất của ngành robot: biến “kiến thức” thành các chuyển động chính xác trong thế giới thực. Gemini Robotics có khả năng tổng quát hóa mạnh mẽ hơn, thực hiện các nhiệm vụ chưa được đào tạo cụ thể. Theo DeepMind, hiệu suất của Gemini Robotics gấp đôi so với các mô hình VLA hàng đầu khác trên một chuẩn đánh giá tổng quát toàn diện.

Khả năng tổng quát hóa rất quan trọng vì robot có thể thích ứng với các tình huống mới mà không cần đào tạo riêng cho từng trường hợp. Điều này giải quyết được sự hoài nghi về khả năng thực sự của robot hình người. Google đang hợp tác với Apptronik để “xây dựng thế hệ robot hình người tiếp theo với Gemini 2.0”. Mặc dù được huấn luyện chủ yếu trên nền tảng robot hai tay ALOHA 2, Gemini Robotics có thể điều khiển nhiều loại robot khác nhau.

Google cũng cung cấp quyền truy cập giới hạn Gemini Robotics-ER cho một số công ty thông qua chương trình “người dùng tin cậy”. Vì lý do an toàn, Google áp dụng phương pháp tiếp cận toàn diện, kết hợp các biện pháp an toàn truyền thống như tránh va chạm và giới hạn lực. Họ cũng phát triển khuôn khổ “Hiến pháp Robot” và bộ dữ liệu “ASIMOV” để đánh giá tác động an toàn của hành động robot. Tuy nhiên, các ứng dụng thương mại cụ thể vẫn chưa được công bố.

**Keywords:** Google Gemini Robotics, AI, Robot, Mô hình ngôn ngữ lớn, Gemini 2.0, Robot hình người, Khả năng vận động tinh tế, Thích ứng, An toàn robot, Trí tuệ nhân tạo, DeepMind, Apptronik, Tổng quát hóa, VLA (Vision-Language-Action)

Nguồn: https://arstechnica.com/ai/2025/03/googles-origami-folding-ai-brain-may-power-new-wave-of-humanoid-robots/

Optimized by Optimole