Nghiên cứu CMU: Nén dữ liệu có thể là chìa khóa mở ra khả năng giải quyết vấn đề của AI

Một nghiên cứu mới đang thách thức quan điểm phổ biến cho rằng AI cần lượng dữ liệu khổng lồ để giải quyết vấn đề.

Các nhà nghiên cứu tại Đại học Carnegie Mellon gần đây đã phát hiện ra manh mối cho thấy quá trình nén thông tin có thể giải quyết các nhiệm vụ lập luận phức tạp mà không cần huấn luyện trước trên một số lượng lớn ví dụ. Hệ thống của họ giải quyết một số loại nhiệm vụ khớp mẫu trừu tượng chỉ bằng chính các câu đố, thách thức kiến thức thông thường về cách các hệ thống học máy đạt được khả năng giải quyết vấn đề. “Liệu việc nén thông tin không mất mát có tự nó tạo ra hành vi thông minh?” Isaac Liao, nghiên cứu sinh năm nhất tiến sĩ, và cố vấn của anh, Giáo sư Albert Gu từ Khoa Học máy học của CMU, đặt câu hỏi. Công trình của họ cho thấy câu trả lời có thể là “có”. Để chứng minh điều đó, họ đã tạo ra CompressARC và công bố kết quả trong một bài đăng toàn diện trên trang web của Liao.

Cặp đôi đã thử nghiệm phương pháp của họ trên Abstraction and Reasoning Corpus (ARC-AGI), một điểm chuẩn hình ảnh chưa từng bị đánh bại được tạo ra năm 2019 bởi nhà nghiên cứu học máy François Chollet để kiểm tra khả năng lập luận trừu tượng của các hệ thống AI. ARC đưa ra các câu đố hình ảnh dựa trên lưới, mỗi câu đố cung cấp một số ví dụ minh họa cho một quy tắc cơ bản, và hệ thống phải suy luận ra quy tắc đó để áp dụng nó vào một ví dụ mới. Ví dụ, một câu đố ARC-AGI hiển thị một lưới với các hàng và cột màu xanh nhạt chia không gian thành các ô. Nhiệm vụ đòi hỏi phải tìm ra màu nào thuộc về ô nào dựa trên vị trí của chúng: đen cho các góc, đỏ tía cho giữa, và các màu theo hướng (đỏ cho lên, xanh lam cho xuống, xanh lá cây cho phải, và vàng cho trái) cho các ô còn lại. (Bài viết gốc có thêm 3 ví dụ khác ở đây, bạn có thể thêm vào nếu muốn).

Những câu đố này kiểm tra các khả năng mà một số chuyên gia tin rằng có thể là cơ bản đối với lý luận giống con người nói chung (thường được gọi là “AGI” – trí tuệ nhân tạo tổng quát). Những thuộc tính đó bao gồm khả năng hiểu sự tồn tại của vật thể, hành vi hướng đến mục tiêu, đếm và hình học cơ bản mà không cần kiến thức chuyên môn. Trung bình con người giải được 76,2% câu đố ARC-AGI, trong khi các chuyên gia đạt được 98,5%. OpenAI đã tạo nên tiếng vang vào tháng 12 với tuyên bố rằng mô hình lập luận mô phỏng o3 của họ đã đạt được điểm số kỷ lục trên điểm chuẩn ARC-AGI. Trong thử nghiệm với giới hạn tính toán, o3 đạt 75,7% trong bài kiểm tra, trong khi trong thử nghiệm tính toán cao (về cơ bản là thời gian suy nghĩ không giới hạn), nó đạt 75,7%, mà OpenAI cho rằng tương đương với hiệu suất của con người.

CompressARC đạt độ chính xác 34,75% trên tập huấn luyện ARC-AGI (tập hợp các câu đố được sử dụng để phát triển hệ thống) và 20% trên tập đánh giá (một nhóm câu đố chưa từng thấy riêng biệt được sử dụng để kiểm tra mức độ tổng quát của phương pháp đối với các vấn đề mới). Mỗi câu đố mất khoảng 20 phút để xử lý trên GPU RTX 4070 tiêu chuẩn, so với các phương pháp hàng đầu sử dụng máy tính cấp trung tâm dữ liệu mạnh mẽ và những gì các nhà nghiên cứu mô tả là “lượng tính toán khổng lồ”.

CompressARC sử dụng một phương pháp hoàn toàn khác so với hầu hết các hệ thống AI hiện nay. Thay vì dựa vào việc huấn luyện trước – quá trình mà các mô hình học máy học hỏi từ các tập dữ liệu khổng lồ trước khi giải quyết các nhiệm vụ cụ thể – nó hoạt động mà không cần dữ liệu huấn luyện bên ngoài nào cả. Hệ thống tự huấn luyện trong thời gian thực chỉ bằng chính câu đố mà nó cần giải quyết. “Không huấn luyện trước; các mô hình được khởi tạo ngẫu nhiên và được huấn luyện trong thời gian suy luận. Không có tập dữ liệu; một mô hình chỉ huấn luyện trên câu đố ARC-AGI mục tiêu và đưa ra một câu trả lời”, các nhà nghiên cứu viết, mô tả các ràng buộc nghiêm ngặt của họ.

Khi các nhà nghiên cứu nói “Không tìm kiếm”, họ đang đề cập đến một kỹ thuật phổ biến khác trong việc giải quyết vấn đề AI, nơi các hệ thống thử nhiều giải pháp khả thi khác nhau và chọn giải pháp tốt nhất. Thuật toán tìm kiếm hoạt động bằng cách khám phá các lựa chọn một cách có hệ thống – giống như một chương trình cờ vua đánh giá hàng nghìn nước đi khả thi – thay vì trực tiếp học một giải pháp. CompressARC tránh phương pháp thử và sai này, chỉ dựa vào gradient descent – một kỹ thuật toán học điều chỉnh dần các tham số của mạng để giảm lỗi, tương tự như cách bạn có thể tìm thấy đáy của một thung lũng bằng cách luôn đi xuống dốc.

Nguyên tắc cốt lõi của hệ thống sử dụng nén – tìm cách hiệu quả nhất để biểu diễn thông tin bằng cách xác định các mẫu và quy luật – như là động lực đằng sau trí thông minh. CompressARC tìm kiếm mô tả ngắn nhất có thể về một câu đố có thể tái tạo chính xác các ví dụ và giải pháp khi được giải nén. Mặc dù CompressARC mượn một số nguyên tắc cấu trúc từ các bộ chuyển đổi (như sử dụng luồng dư với các biểu diễn được hoạt động), nhưng đó là một kiến trúc mạng nơ-ron tùy chỉnh được thiết kế đặc biệt cho nhiệm vụ nén này. Nó không dựa trên mô hình LLM hoặc bộ chuyển đổi tiêu chuẩn.

Không giống như các phương pháp học máy thông thường, CompressARC chỉ sử dụng mạng nơ-ron của nó như một bộ giải mã. Trong quá trình mã hóa (quá trình chuyển đổi thông tin thành định dạng nén), hệ thống tinh chỉnh các cài đặt bên trong của mạng và dữ liệu được đưa vào nó, dần dần thực hiện các điều chỉnh nhỏ để giảm thiểu lỗi. Điều này tạo ra biểu diễn nén nhất trong khi vẫn tái tạo chính xác các phần đã biết của câu đố. Sau đó, các tham số được tối ưu hóa này trở thành biểu diễn nén lưu trữ câu đố và giải pháp của nó ở định dạng hiệu quả. “Thách thức chính là thu được biểu diễn nhỏ gọn này mà không cần câu trả lời làm đầu vào”, các nhà nghiên cứu giải thích. Hệ thống về cơ bản sử dụng nén như một dạng suy luận.

Phương pháp này có thể chứng minh giá trị trong các lĩnh vực mà không có tập dữ liệu lớn hoặc khi các hệ thống cần học các nhiệm vụ mới với số lượng ví dụ tối thiểu. Công trình cho thấy rằng một số hình thức trí thông minh có thể xuất hiện không phải từ việc ghi nhớ các mẫu trên các tập dữ liệu khổng lồ, mà từ việc biểu diễn thông tin một cách hiệu quả ở các dạng nhỏ gọn.

Mối liên hệ tiềm năng giữa nén và trí thông minh có thể nghe có vẻ lạ ở cái nhìn đầu tiên, nhưng nó có nguồn gốc lý thuyết sâu sắc trong các khái niệm khoa học máy tính như độ phức tạp Kolmogorov (chương trình ngắn nhất tạo ra đầu ra được chỉ định) và quy nạp Solomonoff – một tiêu chuẩn vàng lý thuyết cho dự đoán tương đương với thuật toán nén tối ưu. Để nén thông tin hiệu quả, một hệ thống phải nhận ra các mẫu, tìm ra các quy luật và “hiểu” cấu trúc cơ bản của dữ liệu – những khả năng phản ánh những gì nhiều người coi là hành vi thông minh. Một hệ thống có thể dự đoán điều gì sẽ xảy ra tiếp theo trong một chuỗi có thể nén chuỗi đó một cách hiệu quả. Kết quả là, một số nhà khoa học máy tính trong nhiều thập kỷ qua đã gợi ý rằng nén có thể tương đương với trí thông minh tổng quát. Dựa trên những nguyên tắc này, Giải thưởng Hutter đã trao giải thưởng cho các nhà nghiên cứu có thể nén một tệp 1GB xuống kích thước nhỏ nhất. (Bài viết gốc có thêm thông tin về một nghiên cứu năm 2023 của DeepMind liên quan đến việc này. Bạn có thể thêm vào nếu muốn).

Nghiên cứu năm 2023 đó đã gợi ý một mối liên hệ sâu sắc giữa nén và trí thông minh – ý tưởng rằng việc thực sự hiểu các mẫu trong dữ liệu cho phép nén hiệu quả hơn, điều này phù hợp với nghiên cứu CMU mới này. Trong khi DeepMind đã chứng minh khả năng nén trong một mô hình đã được huấn luyện, công trình của Liao và Gu sử dụng một phương pháp khác bằng cách cho thấy rằng quá trình nén có thể tạo ra hành vi thông minh ngay từ đầu.

Nghiên cứu mới này rất quan trọng vì nó thách thức trí tuệ phổ biến trong phát triển AI, thường dựa vào các tập dữ liệu huấn luyện khổng lồ và các mô hình đắt tiền về mặt tính toán. Trong khi các công ty AI hàng đầu đang hướng tới các mô hình ngày càng lớn hơn được đào tạo trên các tập dữ liệu rộng lớn hơn, CompressARC cho thấy trí thông minh xuất hiện từ một nguyên tắc cơ bản khác. “Trí thông minh của CompressARC xuất hiện không phải từ việc huấn luyện trước, các tập dữ liệu khổng lồ, tìm kiếm toàn diện hoặc tính toán khổng lồ – mà từ việc nén”, các nhà nghiên cứu kết luận. “Chúng tôi thách thức sự phụ thuộc thông thường vào việc huấn luyện trước và dữ liệu rộng lớn, và đề xuất một tương lai mà các mục tiêu nén được điều chỉnh và tính toán thời gian suy luận hiệu quả hoạt động cùng nhau để trích xuất trí thông minh sâu sắc từ đầu vào tối thiểu.”

Ngay cả với những thành công của nó, hệ thống của Liao và Gu đi kèm với những hạn chế rõ ràng có thể gây ra sự hoài nghi. Mặc dù nó đã giải quyết thành công các câu đố liên quan đến việc gán màu sắc, điền vào, cắt xén và xác định các pixel liền kề, nhưng nó lại gặp khó khăn với các nhiệm vụ đòi hỏi phải đếm, nhận dạng mẫu tầm xa, xoay, phản chiếu hoặc mô phỏng hành vi của tác nhân. Những hạn chế này làm nổi bật các lĩnh vực mà các nguyên tắc nén đơn giản có thể không đủ. Nghiên cứu này chưa được đánh giá ngang hàng, và độ chính xác 20% trên các câu đố chưa từng thấy, mặc dù đáng chú ý là không cần huấn luyện trước, nhưng vẫn thấp hơn đáng kể so với cả hiệu suất của con người và các hệ thống AI hàng đầu. Những người chỉ trích có thể lập luận rằng CompressARC có thể đang khai thác các mẫu cấu trúc cụ thể trong các câu đố ARC mà có thể không tổng quát hóa được cho các lĩnh vực khác, thách thức việc liệu nén chỉ riêng nó có thể đóng vai trò là nền tảng cho trí thông minh rộng hơn hay chỉ là một thành phần trong số nhiều thành phần cần thiết cho khả năng lập luận mạnh mẽ.

Tuy nhiên, khi phát triển AI tiếp tục tiến bộ nhanh chóng, nếu CompressARC được kiểm tra kỹ hơn, nó cung cấp cái nhìn thoáng qua về một con đường thay thế có thể dẫn đến hành vi thông minh hữu ích mà không cần đến nguồn lực của các phương pháp thống trị hiện nay. Hoặc ít nhất, nó có thể mở ra một thành phần quan trọng của trí thông minh tổng quát ở máy móc, điều mà vẫn chưa được hiểu rõ.

Nguồn: https://arstechnica.com/ai/2025/03/compression-conjures-apparent-intelligence-in-new-puzzle-solving-ai-approach/

Optimized by Optimole