Làm sao chúng ta biết AI sẽ vâng lời? Có lẽ là nhìn cách chúng tranh luận với chính mình
Các chuyên gia tin rằng chứng kiến những hệ thống trí tuệ nhân tạo (AI) tranh luận với nhau sẽ giúp chúng ta hiểu được ý đồ của chúng.
Một ngày nào đó, có thể sẽ là hoàn toàn bình thường khi một hệ thống AI đấu tranh với chính nó.
Ý tưởng trên đến từ các nhà nghiên cứu tại OpenAI, một tổ chức phi lợi nhuận được một số lãnh đạo Silicon Valley sáng lập, bao gồm đối tác của Y Combinator Sam Altman, chủ tịch LinkedIn Reid Hoffman, thành viên hội đồng quản trị Facebook và là nhà sáng lập Palantir Peter Thiel, và Elon Musk, CEO của Tesla và SpaceX.
Trước đó, các nhà nghiên cứu OpenAI đã chỉ ra rằng những hệ thống AI tự học hỏi đôi khi có thể phát triển các hành vi bất ngờ và không mong muốn. Ví dụ, trong một trò chơi trên máy tính, một thiết bị AI có thể tìm ra cách "hack" để đạt điểm số cao hơn. Trong một số trường hợp, con người có thể giám sát quá trình đào tạo. Nhưng nếu chương trình AI đang làm điều gì đó phức tạp, sự giám sát sẽ không khả thi. Vì vậy, các nhà nghiên cứu đề nghị thay vì con người giám sát, hãy để hai hệ thống AI thảo luận, chiến đấu với nhau về một vấn đề.
Những hệ thống AI tự học hỏi đôi khi có thể phát triển các hành vi bất ngờ và không mong muốn.
"Chúng tôi tin rằng cách tiếp cận này hoặc tương tự thế này này có thể giúp chúng tôi đào tạo hệ thống AI thực hiện nhiều nhiệm vụ nâng cao nhận thức hơn khả năng của con người, trong khi vẫn phù hợp với sở thích của con người", các nhà nghiên cứu viết trong một bài đăng trên blog.
Lấy ví dụ, một hệ thống AI được thiết kế để bảo vệ chống lại các tin tặc là con người hoặc AI. Để ngăn chặn hệ thống làm bất cứ điều gì có hại hoặc phi đạo đức, có thể sẽ cần thiết phải thử thách hệ thống AI giải thích logic cho một hành động cụ thể. Tính logic đó có thể quá phức tạp để con người hiểu, nên các nhà nghiên cứu gợi ý nên để một AI khác tranh luận về tính logic, hành vi của hệ thống AI đầu tiên, và con người sẽ quan sát.
Để các chương trình AI tranh luận với nhau đòi hỏi công nghệ phức tạp hơn hiện tại. Vì vậy, cho đến nay, các nhà nghiên cứu OpenAI chỉ khám phá ý tưởng với một vài ví dụ cực kỳ đơn giản. Chẳng hạn như để hai hệ thống AI cố gắng thuyết phục một người quan sát về một nhân vật bí ẩn, bằng cách từ từ tiết lộ các yếu tố riêng lẻ.
Các nhà nghiên cứu đã tạo ra một trang web, trong đó bất kỳ ai, cứ có hai người, là có thể thử chơi trò đóng vai trong hệ thống AI tranh luận, trong khi một người thứ ba đóng vai trò quan sát, thẩm phán. Hai người sẽ cùng cạnh tranh thuyết phục thẩm phán về bản chất của một hình ảnh trong khi làm nổi bật các bộ phận của nó. Và cuối cùng, người quan sát (thẩm phán) có thể dễ dàng xác định ai mới là người trung thực.
Vincent Conitzer, một nhà nghiên cứu tại Đại học Duke, nghiên cứu các vấn đề đạo đức liên quan đến AI, cho biết dự án đang ở giai đoạn đầu nhưng rất hứa hẹn. "Tạo ra các hệ thống AI có thể giải thích các quyết định của chúng là một chương trình nghiên cứu đầy thử thách", ông nói. "Nếu thành công, nó có thể đóng góp rất lớn cho việc sử dụng AI một cách có trách nhiệm".
Mặc dù có một số tuyên bố kỳ lạ của Elon Musk (Elon Musk là một nhà tài trợ cho OpenAI và là thành viên của hội đồng quản trị), song chúng ta vẫn còn một chặng đường dài để có một hệ thống AI có khả năng lừa dối và đánh lừa chúng ta như miêu tả trong các bộ phim Ex Machina và Her.
Vẫn còn một chặng đường dài để có một hệ thống AI có khả năng lừa dối và đánh lừa chúng ta.
Theo trang Technology Review, tuy nhiên, một số nhà nghiên cứu AI đang tìm cách để đảm bảo công nghệ AI sẽ không hoạt động bất ngờ, khó lường. Điều này sẽ rất quan trọng khi các chương trình AI trở nên phức tạp và khó hiểu hơn.
Ariel Procaccia, giáo sư về khoa học máy tính của CMU, người nghiên cứu về cách ra quyết định của các hệ thống tự trị, cho biết: "Tôi nghĩ ý tưởng về sự liên kết giá trị thông qua cuộc tranh luận rất thú vị và có hữu ích".
Tuy nhiên, Procaccia lưu ý rằng mọi thứ vẫn rất sơ bộ, và ý tưởng đó thậm chí có thể chứa một mâu thuẫn cơ bản. "Để tranh luận các câu hỏi có giá trị theo cách dễ hiểu đối với một thẩm phán con người, các hệ thống AI có thể phải hiểu về các giá trị của con người ngay từ đầu", ông nói.
Iyad Rawan, một nhà nghiên cứu tại phòng thí nghiệm truyền thông của MIT, nói thêm rằng các nhà nghiên cứu cần phải cẩn thận. "Tôi nghĩ một số khó khăn sẽ nảy sinh rất nhanh", ông nói. "Đầu tiên là làm thế nào để cuộc tranh luận tự động diễn ra bằng thứ ngôn ngữ tự nhiên, đó vẫn là một vấn đề chưa giải quyết được".