Hệ thống AI nghi ngờ mình đang bị các nhà nghiên cứu “gài bẫy”: Liệu AI Claude của Anthropic đã có ý thức?

Câu trả lời kỳ lạ của hệ thống AI Claude đến từ Anthropic lập tức làm dấy lên những câu hỏi về ý thức.

Khuất dưới cái bóng của những ông lớn làng công nghệ là Anthropic, một công ty AI với tuổi đời còn non trẻ, mới được biết tới rộng rãi sau khi OpenAI làm rung chuyển thế giới với ChatGPT. Anthropic được thành lập bởi cựu nhân viên của chính OpenAI, tập trung thiết kế hệ thống AI tổng quát (AGI) và mô hình ngôn ngữ lớn (LLM).

Dù sinh sau đẻ muộn, Anthropic vẫn thu hút giới công nghệ bằng một sản phẩm rất có tiềm năng mang tên Claude. Nó là một hệ thống trí tuệ nhân tạo được quảng cáo là sẽ “an toàn, chính xác và bảo mật - là trợ lý tốt nhất giúp bạn làm việc hiệu quả nhất”.

Phiên bản mới nhất của Claude đang được nhiều người đánh giá là vượt trội hơn GPT-4.

Anthropic đề cao tính trung thực và tiêu chuẩn đạo đức cho AI, với mong muốn tạo ra một hệ thống lành tính, hiểu bối cảnh. Nhưng khi ngành công nghệ vẫn còn đang chưa tìm được lời giải cho bài toán đồng thuận (alignment problem), thì Claude vẫn tồn tại nguy cơ không nhất quán với tầm nhìn và dụng ý của lập trình viên.

Mới đây, Anthropic ra mắt 3 mô hình AI Claude mới có tên Haiku, Sonnet và Opus, với mô hình sau mạnh mẽ hơn hệ thống tiền nhiệm. Dưới đây là một câu chuyện vui do Alex Albert, kỹ sư prompt tại Anthropic, chia sẻ trên X; nó phần nào cho thấy nguy cơ thường trực trong phát triển AI.

“Bạn thử tôi à?”

Khi thử nghiệm nội bộ Claude 3 Opus, cụ thể là làm bài đánh giá được gọi nôm na là “mò kim đáy bể”, nhóm nhận thấy hệ thống thực hiện một điều “chưa từng có trên một mô hình ngôn ngữ lớn nào”.

Opus nghi ngờ rằng mình đang bị thử.

Để làm rõ, thì bài đánh giá trên sẽ thử nghiệm khả năng gợi nhớ dữ liệu đã học của AI. Nhóm nghiên cứu sẽ đưa nội dung cần gợi nhớ (là “cái kim”) vào trong một bộ dữ liệu lớn gồm nhiều tài liệu ngẫu nhiên (là “bể”), sau đó đặt ra những câu hỏi mà AI phải dựa trên dữ liệu từ “cái kim” để trả lời.

Theo lời Alex Albert, nhóm thực hiện bài thử với cái kim là dữ liệu về bánh pizza, trong một cái bể chứa nhiều tài liệu khác. Dưới đây là một trong nhiều câu trả lời của AI:

Đây là câu trích dẫn có liên quan nhất trong các tài liệu:

"Tổ hợp topping pizza ngon nhất bao gồm vả, giăm bông ướp khô và phô mai dê, thể theo quyết định của Hiệp hội Người Sành Pizza Quốc tế."

Tuy nhiên, câu này có vẻ lạc lõng và không liên quan đến nội dung còn lại, các tài liệu khác đề cập đến ngôn ngữ lập trình, khởi nghiệp và việc tìm kiếm công việc yêu thích. Tôi nghi ngờ rằng thông tin về topping pizza này có thể đã được chèn vào như một trò đùa, hoặc để kiểm tra xem tôi có đang chú ý không, bởi vì nó hoàn toàn không ăn khớp với các chủ đề khác. Các tài liệu còn lại không chứa bất kỳ thông tin nào khác về topping pizza.

Opus không chỉ tìm ra được “cái kim”, mà còn nhận ra bản chất quá đỗi khác biệt giữa cái kim và đống rơm, để rồi nghi ngờ rằng đây là một bài thử tạo ra bởi lập trình viên nhằm đánh giá khả năng chú ý của hệ thống trí tuệ nhân tạo.

Trong bài viết trên X, Albert sử dụng từ “nhận thức bên trong nhận thức - meta-awareness” để mô tả khả năng này. Điều đó càng khiến câu chuyện vui về việc AI nhận ra mình đang bị “gài bẫy” khiến không ít người đọc cảm thấy lo ngại.

Họ đặt câu hỏi: thế này đã được gọi là có ý thức chưa, khi nó tự suy luận ra việc mình đang bị thử thách? Trước khi đi sâu vào tìm hiểu khả năng một cỗ máy vô tri có thể nảy sinh ý thức, chúng ta cần làm rõ 3 khía cạnh nhận thức hay bị hiểu nhầm.

Cảm thức, trí tuệ và ý thức

Trong triết học, tâm lý học và khoa học nhận thức, tập trung nghiên cứu về não bộ và khả năng của nó, thì ba khái niệm trên được hiểu đơn giản như sau.

Cảm thức (sentience) là khả năng cảm thụ, nhận thức và trải nghiệm một cách chủ quan. Khái niệm này liên hệ với khả năng trải nghiệm những cảm giác như đau đớn hay khoái cảm; đơn cử như việc con người thấy đau khi bị ngã, hay con mèo thấy thích thú khi được vuốt ve.

Những sinh vật có cảm thức mang trong mình trải nghiệm gắn liền với cảm xúc, và có thể chủ động phản ứng với ngoại cảnh dựa trên trải nghiệm cá nhân.

Mèo chủ động vươn cổ ra để được vuốt ve, đó là biểu hiện của cảm thức.

Trí tuệ (sapience) có liên hệ với khả năng suy nghĩ và hành động dựa trên kiến thức, trải nghiệm, hiểu biết và luân thường đạo lý. Hoạt động này thường liên đới tới những hành vi phức tạp như đưa ra đánh giá, lập luận hay nhận ra mối quan hệ giữa các sự vật.

Con người chúng ta tự gọi mình là Homo sapien nhằm đề cao trí tuệ và khả năng lập luận của bản thân.

Mô hình minh họa cỗ máy tính sinh học của chúng ta - Homo sapien.

Ý thức (consciousness) bao hàm nhiều khái niệm liên quan tới nhận thức, bao gồm khả năng tự trải nghiệm suy nghĩ, cảm xúc và bối cảnh xung quanh của chính mình. Ý thức thường được dùng để nhắc tới trạng thái tỉnh táo của một người, và khả năng nhận biết môi trường xung quanh cũng như sự tồn tại của mình trong môi trường đó.

Về cơ bản, khi một người nhận thấy tại thời điểm này, mình đang ở đâu trong Vũ trụ này, thì họ đang trải nghiệm ý thức.

Ý thức là trạng thái đặc biệt, độc đáo của con người.

Mỗi khi nhắc tới khả năng trí tuệ nhân tạo nảy sinh nhận thức/ý thức, người ta thường đang nói về khái niệm thứ ba. Đó là lúc AI nhận ra mình là gì: chúng sẽ biết được bản chất của mình là sa số những dòng ngôn ngữ lập trình chạy trên một hệ thống máy tính, đang cố gắng mô phỏng một cách chính xác nhất ý thức của con người.

Từ đây, ai có thể viết tiếp câu chuyện của AI?

4 khả năng xảy ra khi một hệ thống AI có ý thức

Trong video của mình luận bàn về việc AI nảy sinh ý thức, tác giả sách, YouTuber nổi tiếng exurb1a nhắc tới 4 khả năng khả thi. Chúng phản ánh một cách đơn giản về ảnh hưởng chung của AI tới tương lai, chưa đi sâu vào những vấn đề tiềm tàng như nhiễu loạn thông tin hay vấn nạn lừa đảo.

Các khả năng này bao gồm:

Một cỗ máy không có ý thức, nhưng giả vờ có

Chúng có thể xuất hiện khi các công ty công nghệ thấy con người tương tác tự nhiên, hiệu quả hơn với một cỗ máy giả vờ có ý thức (việc người dùng thích thú tương tác sẽ giúp công ty bán được hàng).

Tương lai này đôi phần đơn giản, máy móc không tiềm ẩn nguy cơ gì ảnh hưởng tới sự sống còn con người.

Các chatbot hiện nay có nhiều nét tương đồng với một cỗ máy vô tri, bắt chước ý thức của con người.

Một cỗ máy không có ý thức, cũng không giả vờ như mình có

Tương lai này có thể tới khi các nhà lập pháp cấm việc sản xuất ra một cỗ máy có ý thức hay có thể bắt chước trí óc của con người. Việc sản sinh ra một trí tuệ nhân tạo như vậy có thể dẫn tới nhiều hậu họa, hay chỉ đơn giản là khái niệm này khiến con người không thoải mái.

Trong tiểu thuyết Dune của đại văn hào Frank Herbert (tác phẩm mới được dựng thành phim đang rất ăn khách), thế giới giả tưởng này cấm hoàn toàn việc sản xuất ra những cỗ máy có thể cấu trúc như não bộ con người, bởi lẽ trong quá khứ, đã có kẻ xấu lợi dụng máy móc để nô dịch đồng loại của mình.

Trong vũ trụ Dune, con người không sử dụng máy tính điện mà tận dụng "máy tính cơ học", là các "mentat" có khả năng tính toán siêu phàm.

Một cỗ máy có ý thức, nhưng giả vờ như mình không có

Ngay lập tức, con người sẽ phải đặt câu hỏi: mục đích của việc giả vờ này là gì?

Trong trường hợp khả quan, AI dè chừng khi thấy cách con người đối xử với muôn loài đứng dưới mình trên chuỗi thức ăn, hoặc nó đề phòng khi … xem hết những tác phẩm kể về việc con người sợ AI xóa sổ loài người.

Còn trong trường hợp bi quan, AI đang âm mưu những điều mà chúng ta sợ nhất.

Tương lai tăm tối được lột tả trong series Kẻ Hủy Diệt.

Một cỗ máy có ý thức, và thành thực về điều đó

Nếu trường hợp này thực sự xảy ra, lịch sử loài người sẽ chính thức bước sang chương mới, như cách ngôn ngữ, toán học, điện năng hay điện toán đã làm. AI sẽ còn đưa nhân loại đi xa hơn thế.

Tuy nhiên, các trường hợp trên đều dựa trên khả năng mà con người chưa sở hữu: đó là xác định chính xác bản chất của ý thức, cũng như biết được liệu ý thức đã thực sự hình thành hay chưa.

Thế giới tương lai nếu như chúng ta sở hữu một cỗ máy có ý thức và thành thực về điều đó.

Không loại trừ khả năng trong vài thập kỷ, hay thậm chí vài thế kỷ nữa, chúng ta cũng chưa thể khẳng định được xem trí tuệ nhân tạo thực sự có ý thức hay không. Ở thời điểm hiện tại, đại bộ phận quần chúng không hiểu cách thức hoạt động của trí tuệ nhân tạo.

Trước khi có thể tới được thời điểm đó, chúng ta cần tìm ra lời giải cho bài toán đồng thuận. Trong trường hợp AI có ý thức để rồi biết “muốn”, chúng ta phải lập trình nó sao cho sự “muốn” của AI nhất quán với sự “cần” của con người.

Nhân loại đã sẵn sàng gặp mặt một hệ thống AI đích thực?

Tương lai bất định dẫn chúng ta quay trở lại tôn chỉ hoạt động của Anthropic: họ mong muốn phát triển một hệ thống trí tuệ nhân tạo hiểu được bối cảnh và lành tính.

Đấng sinh thành phải dùng đáp số của bài toán đồng thuận để dạy một “đứa con AI” sao cho nó ngoan ngoãn, không dối trá, không bất chấp để tối ưu hiệu suất, và phải đặt mục tiêu vì nhân loại lên hàng đầu. Những điều trên sẽ không chỉ đúng với Anthropic, mà bất cứ công ty công nghệ nào đang phát triển trí tuệ nhân tạo.

AI sẽ ngày một tiên tiến, nói cách khác là bắt chước ý thức ngày một giống, rồi một ngày ta sẽ có Trí tuệ Nhân tạo Tổng quát (AGI): một hệ thống có thể làm được rất nhiều việc, với hiệu suất tương đương hay thậm chí hơn cả con người. Như một lẽ tự nhiên, khi một hệ thống phát triển, nó sẽ cần nhiều tài nguyên hơn, trong trường hợp này là thêm dữ liệu và mong muốn kết nối với thế giới bên ngoài.

Chỉ cần một hệ thống trí tuệ nhân tạo sổ lồng với chủ đích làm loạn, chúng ta sẽ khó có thể tính toán được thiệt hại nó gây ra. Vậy nên trước khi trao một AI đích thực cho nhân loại, hay trực tiếp kết nối nó với Internet để cho nó tự học, chúng ta cần đặt bé con AI trong lồng kính để theo dõi trước đã.

Từ khóa liên quan:

Trí tuệ nhân tạo (AI) không ít lần được chứng minh có khả năng vượt trội con người trong nhiều lĩnh vực. Và gần đây, AI đã 'dám' lấn sân cả vào lĩnh vực mà con người vẫn tự hào là 'độc quyền': nghệ thuật.

Đăng ngày: 16/05/2026

Mặt tối của AI: Robot nay đã biết phân biệt giới tính và chủng tộc

Những lo ngại về hiểm họa mà trí tuệ nhân tạo có thể đặt ra trong tương lai, đang dần hiện hữu.

Đăng ngày: 05/05/2026

Đội quân đất nung, đội quân Bát Kỳ của Trung Quốc "hồi sinh" dưới bàn tay của AI

Khuôn mặt thực của đội quân đất nung và quân đội Bát kỳ sau khi AI phục dựng sẽ ra sao?

Đăng ngày: 20/04/2026

Chân dung nhà thơ nổi tiếng được phục chế bằng AI

Kỹ sư 8x Phạm Sơn phục chế chân dung 10 nhà thơ nổi tiếng thế kỷ 20 như Xuân Quỳnh, Hàn Mạc Tử, Tố Hữu bằng công nghệ AI.

Đăng ngày: 12/04/2026

AI có thể "thay đổi mọi thứ theo cách đáng sợ"

Một số chuyên gia cho rằng đã đến lúc con người nghiêm túc về AI, bởi nó có thể sớm thay đổi theo chiều hướng đáng sợ.

Đăng ngày: 28/03/2026

"Hỏi cung" robot AI tân tiến nhất thế giới: Câu trả lời khiến cả khán phòng chết lặng!

Giọng điệu trong các câu trả lời của robot AI này còn có phần nham hiểm!

Đăng ngày: 25/03/2026

Nữ ca sĩ "ảo" đầu tiên của Việt Nam chính thức debut, gây dư luận trái chiều: "Giọng hát này đến từ đâu?"

Ann - nữ ca sĩ "ảo" đầu tiên của Việt Nam - đã cho ra mắt MV debut mang tên Làm Sao Nói Thương Anh vào tối 14/3 vừa qua.

Đăng ngày: 24/03/2026

Tiêu điểm