Hệ thống AI "quái dị" này sẽ tạo ra hình ảnh từ các nội dung chữ được nhập vào

Ở thời điểm hiện tại, trí thông minh nhân tạo đang chứng tỏ rằng chúng vô cùng giỏi ở 2 lĩnh vực: đưa ra những quyết định mang tính logic và nhận diện mẫu.

Nhờ có machine learning – thứ giúp AI tự dạy mình dựa trên các dữ liệu nhập có chọn lọc, giờ đây ta đã có các phần mềm dự đoán chính xác tính cách của một con người chỉ nhờ bằng chuyển động mắt của họ.

Chưa hết, chúng còn có thể viết được tiểu thuyết viễn tưởng, như tập mới của cậu bé phép thuật Harry Potter và Chân dung của Đống tro Khổng lồ. Mới đây, một nhóm nghiên cứu đã chế tạo thành công một hệ thống cho phép biến đổi những dòng chữ nhập vào thành một chuỗi các hình ảnh. Mục đích của dự án này nghe rất sáng tạo và đột phá, thế nhưng kết quả thì … hơi rùng rợn.

Con hươu cao cổ này có màu xanh, hồng và đỏ, trên người nó có một triệu đốm nâu và nó thích ngắm hoàng hôn với bạn bè của mình.

Trên thực tế, tất cả những lần thử đều nhận được lời đáp khá kỳ dị từ AI, những con vật trong hình đều có hình dạng rất quái lạ. "Một con mèo đeo bịt mắt và có cái miệng màu xanh", thì trí tuệ nhân tạo cho ra hình một cái móng vuốt mèo được hình thành bởi miệng mèo.

Con cá heo này đang lườm nguýt đối thủ truyền kiếp của mình.

Hệ thống AI này đã được đăng tải lên web nhờ nhóm nhà nghiên cứu Cristobal Valenzuela của đại học New York – những người xây dựng các công cụ machine learning miễn phí cho cộng đồng. Phần mềm này thực chất được dựng nên bởi nhóm nhà khoa học ở địa học Lehigh. Họ hy vọng có thể viết ra được những thuật toán nhằm cải thiện khả năng nhận diện và hiểu hình ảnh của các chương trình machine learning.

Loại trí thông minh nhân tạo này (được gọi là AttnGAN) đã đạt được kết quả khá ấn tượng. Với một câu nói dài, ví dụ như "con chim này có màu đỏ và trắng, mỏ của nó rất ngắn", nó có thể xuất ra được một chuỗi các hình ảnh tương ứng với mỗi phần của câu.

Nhánh cần tây đang bị đốt trên đống lửa.

Thay vì chỉ có 1 mạng learning để nhận diện hoặc xuất hình ảnh, GAN sử dụng 2 mạng, một để tạo ra hình ảnh, hai là để điều chỉnh nó sao cho khớp với mô tả. Điều này cho phép cả hai hoạt động mượt mà, trơn tru hơn trong quá trình học, giúp đẩy nhanh tiến độ và tạo ra các tấm ảnh chính xác hơn.

Như chính tác giả đã đề cập tới "việc tự động tạo ra các hình ảnh dựa trên ngôn ngữ miêu tả tự nhiên vốn là một vấn đề cơ bản". Họ giải thích rằng phương pháp thường dùng cho loại AI này là đánh giá cả câu hoặc file chữ để cố gắng tìm ra hình ảnh yêu cầu là gì. Kết quả của cách thức này là lúc được, lúc không.

Chuối và nho đang đánh nhau.

Vì vậy, họ quyết định đi theo hướng đi mới, đó là phân tích ngay mỗi phần câu nói đang được nhập vào. Đây là một phương thức cực kỳ phức tạp bởi về cơ bản, máy móc phải bắt chước những gì mà trí óc con người sẽ thực hiện trong hoàn cảnh ấy nhờ vô vàn thuật toán khác nhau.

Đây không phải là một sản phẩm hoàn hảo, tuy nhiên nó là một bước tiến bộ đáng kể. Nhờ có kiến thức sâu rộng về toàn học mà phần mềm của AI này vượt trội hoàn toàn so với các trí tuệ tạo ảnh khác. Ý tưởng đằng sau dự án này là việc nhận ra các hình ảnh là một chuyện, còn việc tự kết xuất ra một hình từ trí óc của riêng bạn? Đó là một câu chuyện khác.

Hệ thống AI "quái dị" này sẽ tạo ra hình ảnh từ các nội dung chữ được nhập vào

Tin nổi bật

Tin cùng chuyên mục

Tin mới nhất