Claude 3.7: Thơ Tứ Tuyệt và Tư Duy Mở Rộng, Giải Quyết Vấn Đề Phức Tạp

Mẫu ngôn ngữ AI Claude 3.7 Sonnet của Anthropic cực giỏi lập trình!

Hôm thứ Hai, Anthropic ra mắt Claude 3.7 Sonnet, một mô hình ngôn ngữ AI mới với khả năng lập luận mô phỏng (SR) gọi là “tư duy mở rộng”, cho phép hệ thống giải quyết vấn đề từng bước một. Họ cũng giới thiệu Claude Code, một trợ lý AI dòng lệnh dành cho lập trình viên, hiện đang trong giai đoạn thử nghiệm nghiên cứu hạn chế. Anthropic gọi Claude 3.7 là mô hình “lập luận lai” đầu tiên trên thị trường, cho phép người dùng lựa chọn giữa phản hồi nhanh hoặc quá trình xử lý chuỗi suy nghĩ mở rộng, minh bạch – tương tự như các mô hình o1 và o3 của OpenAI, Gemini 2.0 Flash Thinking của Google và R1 của DeepSeek. Khi sử dụng API của Claude 3.7, lập trình viên có thể chỉ định chính xác số lượng token mà mô hình nên sử dụng để suy luận, tối đa 128.000 token. Mô hình mới này có sẵn trên tất cả các gói đăng ký Claude, và chế độ tư duy mở rộng chỉ không có trên gói miễn phí. Giá API vẫn giữ nguyên ở mức 3 đô la cho một triệu token đầu vào và 15 đô la cho một triệu token đầu ra, token suy luận được tính vào giá đầu ra vì chúng là một phần của ngữ cảnh mà mô hình xem xét.

Một điểm thú vị khác là, so với phiên bản tiền nhiệm Claude 3.5 Sonnet khá “cẩn trọng”, Anthropic cho biết họ đã giảm 45% các trường hợp từ chối không cần thiết ở phiên bản 3.7 Sonnet. Nói cách khác, 3.7 Sonnet sẵn sàng làm theo yêu cầu của bạn hơn mà không “kêu ca” về những giới hạn đạo đức, điều thường xảy ra ở các tình huống vô hại nhưng bị hiểu sai bởi mạng lưới thần kinh.

Theo các bài kiểm tra chuẩn, mô hình mới nhất của Anthropic ngang sức, thậm chí vượt trội trong ít nhất một lĩnh vực: lập trình. Phiên bản tiền nhiệm 3.5 Sonnet đã rất xuất sắc trong các nhiệm vụ lập trình so với các mô hình AI khác, và Anthropic cho biết các thử nghiệm ban đầu cho thấy hiệu suất mạnh mẽ trong lĩnh vực này ở phiên bản 3.7. Họ tuyên bố Claude 3.7 Sonnet đạt điểm cao nhất trong SWE-bench Verified (đánh giá khả năng xử lý các vấn đề phần mềm thực tế của các mô hình AI) và TAU-bench (kiểm tra các tác vụ phức tạp với tương tác người dùng và công cụ).

Nhắm đến các nhà phát triển phần mềm, Anthropic cũng đã mở rộng tích hợp GitHub cho tất cả các gói Claude, cho phép kết nối kho lưu trữ mã trực tiếp với Claude để sửa lỗi, phát triển tính năng và tạo tài liệu. Kinh nghiệm cá nhân cho thấy Claude 3.5 Sonnet rất hữu ích trong việc tạo nguyên mẫu nhanh, nhưng thường bị giới hạn về lượng sử dụng. Hiện tại, Anthropic chưa công bố gói đăng ký nào vượt quá “Claude Pro” ($20/tháng), nhưng có lẽ các lập trình viên sẽ cần một gói cao cấp hơn với khả năng sử dụng mở rộng hơn.

Ngoài ra, việc đổi tên cũng đáng lưu ý. Claude 3.5 Sonnet ra mắt vào tháng 6 năm 2024, nhưng được cập nhật vào tháng 10 với tên gọi gần như giống hệt (đôi khi được gọi là “Claude 3.5 Sonnet (mới)” hoặc “Claude 3.5 Sonnet (tháng 10 năm 2024)”), gây nhầm lẫn cho người dùng. Anthropic đã rút kinh nghiệm này trong việc đặt tên cho phiên bản 3.7.

Tương tự các mô hình SR khác, Claude 3.7 với tư duy mở rộng cố gắng giải quyết các vấn đề phức tạp hơn bằng cách sử dụng nhiều token hơn thông qua quá trình lập luận mô phỏng. Bạn có thể thấy quá trình “suy nghĩ” của Claude 3.7 khi tìm ra câu trả lời lý tưởng. Trong thử nghiệm ngắn gọn, chúng tôi đã yêu cầu nó giải quyết một vài bài toán đơn giản, bao gồm cả câu hỏi về nguồn gốc của tên màu “magenta”. Claude 3.7 Sonnet đã gây ấn tượng với câu trả lời dứt khoát “không” kèm theo giải thích. Chúng tôi cũng yêu cầu nó tạo ra 5 câu chuyện cười “cha đẻ” độc đáo và kết quả khá ấn tượng.

Năm 2025 chứng kiến sự phát triển mạnh mẽ của cả mô hình SR và công cụ AI tự động. Anthropic cũng tham gia cuộc chơi với Claude Code, một trợ lý lập trình tự động hoạt động trực tiếp từ thiết bị đầu cuối. Claude Code có thể tìm kiếm trong cơ sở mã, đọc và chỉnh sửa tệp, viết và chạy thử nghiệm, commit và push mã lên kho lưu trữ GitHub và thực hiện các công cụ dòng lệnh, đồng thời thông báo cho lập trình viên trong suốt quá trình. Claude Code hiện đang trong giai đoạn thử nghiệm hạn chế. Claude 3.7 Sonnet hiện đã có sẵn trên trang web Claude, ứng dụng Claude, API Anthropic, Amazon Bedrock và Google Cloud’s Vertex AI.

Nguồn: https://arstechnica.com/ai/2025/02/claude-3-7-sonnet-debuts-with-extended-thinking-to-tackle-complex-problems/

Optimized by Optimole