Chỉ cần vài lời mô tả, AI của Microsoft đã vẽ được một bức tranh tuyệt đẹp
Trí tuệ nhân tạo không chỉ phục vụ đắc lực trong việc hỗ trợ tìm kiếm hình ảnh cho các công cụ tìm kiếm, mà trong tương lai còn hứa hẹn sẽ giúp người sử dụng phác thảo nhanh nhất những hình ảnh trong suy nghĩ của con người chỉ bằng vài từ ngữ mô tả - đó là những gì mà các nhà nghiên cứu tại Microsoft đang hướng đến.
Google có thể dạy cho trí tuệ nhân tạo (AI) cách tạo ra bức vẽ nguệch ngoạc, nhưng vẽ một bức tranh hoàn chỉnh là điều phức tạp đối với AI. Thật khó tưởng tượng rằng AI có thể vẽ bức tranh qua những từ ngữ mô tả như: “con chim màu vàng nổi bật bộ cánh đen, bộ lông mềm mại cùng chiếc mỏ nhỏ xinh”.
Tuy nhiên, các nhà nghiên cứu tại Microsoft đã phát triển một công nghệ dựa trên trí tuệ nhân tạo AI để thực hiện điều đó, hệ thống này có khả năng tạo ra hình ảnh từ mô tả bằng văn bản với độ chính xác cao đến kinh ngạc.
Hệ thống không thể tự tìm thấy một hình ảnh hiện thực dựa trên suy nghĩ của bạn nhưng có thể vẽ hình ảnh dựa trên mô tả của bạn.
Tranh vẽ chim do trí tuệ nhân tạo của Microsoft thực hiện. (Ảnh: Microsoft).
“Nếu bạn truy cập vào Bing và tìm kiếm hình ảnh một con chim, bạn sẽ thấy rất nhiều bức tranh về điều đó. Nhưng tại đây, những hình ảnh được tạo ra hoàn toàn bởi máy tính, không có sự can thiệp của con người. Những con chim ấy có thể không hề tồn tại trong thế giới thực, đó chỉ là sản phẩm của trí tưởng tượng của chính bạn” – nhà nghiên cứu Xiaodong He tuyên bố trong một nghiên cứu.
Mặc dù công nghệ này chưa được phát triển hoàn chỉnh nhưng trong tương lai, công nghệ này sẽ là trợ lý đắc lực giúp kiến trúc sư hay họa sĩ để giúp phác họa nhanh nhất có thể. Xa hơn nữa, ông He cho rằng nghiên cứu của mình có thể tạo ra những bộ phim hoạt hình dựa trên việc mô tả bằng những kịch bản có sẵn.
Nhóm đã bắt đầu nghiên cứu về tương lai máy tính có thể xử lý ngôn ngữ tự nhiên với CaptionBot (hệ thống robot phụ đề có thể đọc bất kì nội dung nào từ bức ảnh theo ngôn ngữ con người, kèm theo đó là cảm xúc của người trong ảnh).
Nhà nghiên cứu Xiaodong He. (Ảnh: ĐH Washington).
Trên cơ sở này, hệ thống nhằm trả lời các câu hỏi từ con người về hình ảnh sẽ được tạo ra, có tên là SeeingAI (ứng dụng có thể nhận dạng tiền tệ, mô tả hình ảnh... hỗ trợ người khiếm thị).
Công nghệ hiện tại bao gồm 2 bộ phận: bộ phận tạo ra những hình ảnh được biết đến như mạng lưới đối kháng phát sinh (Generative Adversarial Network – GAN) và bộ phận đánh giá chất lượng của các hình ảnh được tạo ra.
Những “họa sĩ robot” được huấn luyện theo từng cặp hình ảnh – chú thích với hình ảnh và cảm xúc của nhân vật khác nhau sẽ gắn với miêu tả cụ thể. Nghiên cứu này dựa trên cơ sở cách thức mà người ta mô tả khi tưởng tượng bức tranh trong đầu như: Cánh đồng đỏ, cái mỏ sắc, cánh màu vàng...