Trợ lý ảo thường nói những điều ngớ ngẩn và chúng ta đã biết lí do tại sao
Gần đây, các nhà khoa học Mỹ đã xây dựng một bài kiểm tra năng lực mới có thể thách thức cả những hệ thống trí tuệ nhân tạo thông minh nhất hiện nay.
Theo MIT Technology Review, rõ ràng là các công cụ trợ lý ảo của những gã khổng lồ công nghệ như Siri (Apple) và Alexa (Amazon) vẫn còn lâu mới có thể trở nên hoàn hảo. Nhưng chúng ta vẫn hy vọng là công nghệ học máy sẽ tiến triển ổn định để sớm biến chúng thành những người hỗ trợ ngôn ngữ đắc lực. Tuy vậy, một bài kiểm tra mới được các nhà khoa học Mỹ xây dựng gần đây lại cho thấy rằng, để thật sự thông thạo ngôn ngữ, các hệ thống trí tuệ nhân tạo (AI) cần áp dụng một cách tiếp cận hoàn toàn khác.
Rõ ràng là các công cụ trợ lý ảo của những gã khổng lồ công nghệ vẫn còn lâu mới có thể hoàn hảo.
Trong dự án của các nhà nghiên cứu đến từ học viện Allen về AI (AI2, một tổ chức phi lợi nhuận ở Seattle, Mỹ), họ đã phát triển một tập dữ liệu mang tên AI2 Reasoning Challenge (ARC) bao gồm các câu hỏi nhiều lựa chọn trong lĩnh vực khoa học cấp tiểu học. Mỗi câu hỏi cần một số hiểu biết về cách thức vận hành của thế giới.
Một ví dụ như câu hỏi này: Món nào dưới đây không được làm từ một nguyên liệu trồng trong tự nhiên? (A) áo sơmi cotton, (B) ghế gỗ, (C) muỗng nhựa, (D) rổ bằng cỏ.
Câu hỏi này rất dễ khi bạn biết rằng nhựa không phải là cái trồng được trong tự nhiên. Câu trả lời liên quan tới bức tranh kinh nghiệm thực tiễn (common-sense) về thế giới mà hầu hết mọi người đều có, kể cả các trẻ nhỏ.
Nhưng với AI thì câu hỏi trên đây là một câu hỏi khó, vì kinh nghiệm thực tiễn là cái mà AI thua kém các trợ lý âm thanh, chatbot, và cũng là thiếu sót của các phần mềm dịch thuật. Đó là một trong những lý do khiến AI dễ dàng lúng túng trước câu hỏi này.
Thử nghiệm mới là một trong những sáng kiến của học viện AI2 để giúp các hệ thống AI thấm nhuần những hiểu biết dạng này về thế giới.
Cho tới nay, các hệ thống ngôn ngữ phụ thuộc vào học máy thường chỉ cung cấp các câu trả lời thuyết phục cho những câu hỏi mà chúng đã thấy qua nhiều ví dụ tương tự. Ví dụ, một hệ thống đào tạo hàng ngàn cuộc trò chuyện (chat) hỗ trợ công nghệ thông tin có thể tự nhận mình là người hỗ trợ kỹ thuật trong những tình huống giới hạn. Nhưng hệ thống này sẽ thất bại trong những câu hỏi cần kiến thức rộng hơn.
"Chúng ta cần sử dụng kinh nghiệm thực tiễn để lấp đầy những khoảng trống trong ngôn ngữ mà chúng ta thấy được, để có một bức tranh mạch lạc về những gì đang được phát biểu. Máy móc không có kinh nghiệm chung này, vì vậy chúng chỉ có thể hiểu được những gì được viết ra rõ ràng mà bỏ qua nhiều ẩn ý và giả định bên dưới văn bản", lời trưởng nhóm nghiên cứu dự án ARC, Peter Clark.
Thử nghiệm mới là một trong những sáng kiến của học viện AI2 để giúp các hệ thống AI thấm nhuần những hiểu biết dạng này về thế giới. Nghiên cứu này rất có ý nghĩa vì việc xác định cách thức mà một hệ thống ngôn ngữ hiểu rõ điều mình đang nói sẽ đòi hỏi sự tinh tế, khéo léo như con người.
Một ví dụ cho quan điểm trên là nghiên cứu của Microsoft và một nhóm ở Alibaba hồi tháng 1 vừa qua. Trong một thử nghiệm đơn giản mang tên Stanford Question Answering Dataset (tập dữ liệu trả lời câu hỏi Stanford), các nhà nghiên cứu đã phát triển một chương trình hỏi và trả lời thể hiện năng lực giỏi hơn con người. Những tiến bộ này đã xuất hiện trên tiêu đề các báo với các ý kiến cho rằng, giờ đây AI có thể đọc hiểu tốt hơn con người.
Đây là một liều thuốc giải độc rất tốt cho những chuẩn mực đo lường hời hợt đã quá phổ biến trong lĩnh vực học máy.
Thật ra thì các chương trình nêu trên chưa thể trả lời những câu hỏi phức tạp hơn hoặc truy cập được những nguồn kiến thức khác. Vì vậy, trong thời gian tới, các công ty công nghệ sẽ tiếp tục phát triển năng lực AI theo hướng mới này. Gần đây, Microsoft đã công bố việc phát triển một phần mềm có khả năng dịch các tin tức từ tiếng Anh sang tiếng Hoa và ngược lại, với kết quả được các tình nguyện viên độc lập đánh giá là tương đương các nhà biên dịch chuyên nghiệp. Để đạt được mức độ chính xác cao hơn, các nhà nghiên cứu của Microsoft đã sử dụng một kỹ thuật học sâu cao cấp. Kết quả này tuy rất hữu ích và có tiềm năng nhưng hệ thống AI vẫn sẽ phải vật lộn với việc biên dịch các hội thoại tự do hoặc văn bản trong một lĩnh vực xa lạ như các ghi chú y khoa.
Trong bối cảnh đó, bài kiểm tra mới thách thức năng lực AI của học viện AI2 đã nhận được sự ủng hộ của một giáo sư đại học New York. Theo ông, "đây là một liều thuốc giải độc rất tốt cho những chuẩn mực đo lường hời hợt đã quá phổ biến trong lĩnh vực học máy. Nó sẽ thật sự ép buộc các nhà nghiên cứu AI vượt lên trước trong cuộc chơi của mình".