Công cụ tìm kiếm AI dẫn nguồn sai đến 60%, nghiên cứu cho thấy

## Nghiên cứu chỉ ra các dịch vụ tìm kiếm AI đưa thông tin sai lệch và bỏ qua yêu cầu loại trừ của nhà xuất bản

Một nghiên cứu mới từ Trung tâm Báo chí Kỹ thuật số Tow thuộc Columbia Journalism Review (CJR) đã phát hiện ra những vấn đề nghiêm trọng về độ chính xác của các mô hình AI tổng quát được sử dụng trong tìm kiếm tin tức. Nghiên cứu đã thử nghiệm tám công cụ tìm kiếm AI tích hợp chức năng tìm kiếm trực tiếp và phát hiện ra rằng các mô hình AI đã trả lời sai hơn 60% các truy vấn về nguồn tin tức.

Các nhà nghiên cứu Klaudia Jaźwińska và Aisvarya Chandrasekar lưu ý trong báo cáo của họ rằng khoảng 1/4 người Mỹ hiện đang sử dụng các mô hình AI như một sự thay thế cho các công cụ tìm kiếm truyền thống. Điều này làm dấy lên những lo ngại nghiêm trọng về độ tin cậy, xét đến tỷ lệ lỗi đáng kể được phát hiện trong nghiên cứu. Tỷ lệ lỗi khác nhau đáng kể giữa các nền tảng được thử nghiệm. Perplexity cung cấp thông tin không chính xác trong 37% các truy vấn được thử nghiệm, trong khi ChatGPT Search xác định sai 67% (134 trong số 200) bài viết được truy vấn. Grok 3 cho thấy tỷ lệ lỗi cao nhất, ở mức 94%.

Để thực hiện các thử nghiệm, các nhà nghiên cứu đã cung cấp các đoạn trích trực tiếp từ các bài báo tin tức thực tế cho các mô hình AI, sau đó yêu cầu mỗi mô hình xác định tiêu đề bài báo, nhà xuất bản gốc, ngày xuất bản và URL. Họ đã chạy 1.600 truy vấn trên tám công cụ tìm kiếm tổng quát khác nhau. Nghiên cứu nhấn mạnh một xu hướng phổ biến trong các mô hình AI này: thay vì từ chối trả lời khi chúng thiếu thông tin đáng tin cậy, các mô hình thường đưa ra những câu trả lời sai lệch nhưng nghe có vẻ hợp lý. Các nhà nghiên cứu nhấn mạnh rằng hành vi này nhất quán trên tất cả các mô hình được thử nghiệm, không chỉ giới hạn ở một công cụ. Điều đáng ngạc nhiên là các phiên bản trả phí cao cấp của các công cụ tìm kiếm AI này thậm chí còn hoạt động kém hơn trong một số khía cạnh. Perplexity Pro (20$/tháng) và dịch vụ cao cấp của Grok 3 (40$/tháng) thường đưa ra các câu trả lời không chính xác một cách tự tin hơn so với các phiên bản miễn phí của chúng. Mặc dù các mô hình cao cấp này trả lời chính xác nhiều lời nhắc hơn, nhưng việc chúng miễn cưỡng từ chối trả lời các câu hỏi không chắc chắn đã dẫn đến tỷ lệ lỗi tổng thể cao hơn.

Các nhà nghiên cứu của CJR cũng phát hiện ra bằng chứng cho thấy một số công cụ AI đã bỏ qua cài đặt Robot Exclusion Protocol, mà các nhà xuất bản sử dụng để ngăn chặn quyền truy cập trái phép. Ví dụ, phiên bản miễn phí của Perplexity đã xác định chính xác tất cả 10 đoạn trích từ nội dung trả phí của National Geographic, mặc dù National Geographic đã rõ ràng không cho phép các trình thu thập dữ liệu web của Perplexity. Ngay cả khi các công cụ tìm kiếm AI này trích dẫn nguồn, chúng thường hướng người dùng đến các phiên bản được tổng hợp của nội dung trên các nền tảng như Yahoo News thay vì các trang web của nhà xuất bản gốc. Điều này xảy ra ngay cả trong những trường hợp các nhà xuất bản đã có các thỏa thuận cấp phép chính thức với các công ty AI. Việc tạo ra URL giả mạo cũng nổi lên như một vấn đề đáng kể. Hơn một nửa số trích dẫn từ Gemini của Google và Grok 3 đã dẫn người dùng đến các URL giả mạo hoặc bị hỏng, dẫn đến các trang lỗi. Trong số 200 trích dẫn được thử nghiệm từ Grok 3, 154 dẫn đến các liên kết bị hỏng.

Những vấn đề này tạo ra sự căng thẳng đáng kể đối với các nhà xuất bản, những người phải đối mặt với những lựa chọn khó khăn. Việc chặn trình thu thập dữ liệu AI có thể dẫn đến việc mất hoàn toàn nguồn tham chiếu, trong khi cho phép chúng lại cho phép sử dụng rộng rãi mà không dẫn lưu lượng truy cập trở lại các trang web của nhà xuất bản. Mark Howard, giám đốc điều hành của tạp chí Time, đã bày tỏ lo ngại với CJR về việc đảm bảo tính minh bạch và kiểm soát cách nội dung của Time xuất hiện thông qua tìm kiếm được tạo bởi AI. Tuy nhiên, Howard cũng cho rằng người dùng cũng cần phải tự chịu trách nhiệm nếu họ không hoài nghi về độ chính xác của các công cụ AI miễn phí.

OpenAI và Microsoft đã đưa ra các tuyên bố cho CJR thừa nhận đã nhận được các phát hiện nhưng không giải quyết trực tiếp các vấn đề cụ thể. Báo cáo mới nhất dựa trên các phát hiện trước đó được Trung tâm Tow công bố vào tháng 11 năm 2024, trong đó đã xác định các vấn đề về độ chính xác tương tự trong cách ChatGPT xử lý nội dung liên quan đến tin tức. Để biết thêm chi tiết về báo cáo khá toàn diện này, hãy truy cập trang web của Columbia Journalism Review.

Nguồn: https://arstechnica.com/ai/2025/03/ai-search-engines-give-incorrect-answers-at-an-alarming-60-rate-study-says/

Bài viết liên quan

Apple sắp thay máu lãnh đạo để giải quyết vấn đề Siri chậm trễ

Tính năng ‘Trình tóm tắt’ dựa trên AI-ChatGPT đã được Brave Search giới thiệu

Chuyên gia OpenAI rời đi để thành lập startup về khoa học vật liệu