## Công ty AI Sesame công bố mô hình cơ sở của trợ lý giọng nói siêu thực Maya
Công ty trí tuệ nhân tạo Sesame vừa phát hành mô hình cơ sở tạo nên Maya, trợ lý giọng nói có độ chân thực ấn tượng. Mô hình này có 1 tỷ tham số (mỗi tham số là một thành phần riêng lẻ của mô hình) và được cấp phép theo Apache 2.0, có nghĩa là nó có thể được sử dụng thương mại với rất ít hạn chế. Được gọi là CSM-1B, mô hình này tạo ra “mã âm thanh RVQ” từ đầu vào văn bản và âm thanh, theo mô tả của Sesame trên nền tảng phát triển AI Hugging Face. RVQ là viết tắt của “vector quantization dư”, một kỹ thuật mã hóa âm thanh thành các mã thông báo rời rạc gọi là mã. RVQ được sử dụng trong một số công nghệ âm thanh AI gần đây, bao gồm SoundStream của Google và Encodec của Meta. CSM-1B sử dụng mô hình từ họ Llama của Meta làm nền tảng kết hợp với thành phần “giải mã” âm thanh. Sesame cho biết một biến thể tinh chỉnh của CSM tạo nên sức mạnh của Maya.
Sesame viết trong kho lưu trữ Hugging Face và GitHub của CSM-1B: “Mô hình mã nguồn mở ở đây là mô hình tạo cơ sở. Nó có khả năng tạo ra nhiều giọng nói khác nhau, nhưng nó chưa được tinh chỉnh trên bất kỳ giọng nói cụ thể nào […] Mô hình có một số khả năng đối với các ngôn ngữ không phải tiếng Anh do dữ liệu bị nhiễu trong dữ liệu đào tạo, nhưng nó có thể sẽ không hoạt động tốt.” Hiện chưa rõ Sesame đã sử dụng dữ liệu nào để huấn luyện CSM-1B. Công ty không tiết lộ thông tin này.
Điều đáng chú ý là mô hình này hầu như không có biện pháp bảo vệ nào. Sesame chỉ vận dụng hệ thống danh dự và kêu gọi các nhà phát triển và người dùng không sử dụng mô hình để bắt chước giọng nói của người khác mà không được sự đồng ý, tạo nội dung gây hiểu lầm như tin giả hoặc tham gia vào các hoạt động “có hại” hoặc “ác ý”. Việc nhân bản giọng nói của tôi chỉ mất chưa đầy một phút khi tôi thử bản demo trên Hugging Face. Từ đó, việc tạo ra lời nói theo ý muốn của tôi rất dễ dàng, kể cả về các chủ đề gây tranh cãi như bầu cử và tuyên truyền của Nga. Tạp chí Consumer Reports gần đây đã cảnh báo rằng nhiều công cụ nhân bản giọng nói AI phổ biến trên thị trường hiện nay không có biện pháp bảo vệ “có ý nghĩa” để ngăn ngừa gian lận hoặc lạm dụng.
Sesame, được đồng sáng lập bởi Brendan Iribe – đồng sáng tạo Oculus, đã trở nên nổi tiếng vào cuối tháng Hai nhờ công nghệ trợ lý của mình, gần như vượt qua được “thung lũng kỳ lạ”. Maya và trợ lý khác của Sesame, Miles, đều hít thở và nói chuyện không trôi chảy, và có thể bị ngắt lời khi đang nói, rất giống với Chế độ Giọng nói của OpenAI. Sesame đã huy động được một khoản vốn chưa được tiết lộ từ Andreessen Horowitz, Spark Capital và Matrix Partners. Ngoài việc xây dựng công nghệ trợ lý giọng nói, công ty cho biết họ đang tạo mẫu kính AI “được thiết kế để đeo cả ngày” sẽ được trang bị các mô hình tùy chỉnh của mình.
**Keywords:** Sesame, Maya, trợ lý giọng nói AI, mô hình ngôn ngữ lớn, CSM-1B, mã nguồn mở, Apache 2.0, RVQ, nhân bản giọng nói, Brendan Iribe, Oculus, Andreessen Horowitz, Spark Capital, Matrix Partners, Hugging Face, AI glasses.