Các nhà nghiên cứu phát triển phần mềm nhận diện hình ảnh mới

Một nhóm các nhà nghiên cứu thuộc MIT đã phát hiện ra rằng chỉ cần một vài pixel thông tin là có thể nhận diện đối tượng trong một bức ảnh. Khám phá này có thể dẫn đến những tiến bộ to lớn trong viện nhận diện tự động các hình ảnh trực tuyến và nhất là cung cấp nền tảng cho máy tính nhìn được như con người.

Antonio Torralba, giảng viên tại Phòng thí nghiệm Trí thông minh nhân tạo và Khoa học máy tính của MIT, và cộng sự đã cố gắng tìm ra đâu là lượng thông tin nhỏ nhất – tức biểu hiện số ngắn nhất – có thể trích xuất được từ một hình ảnh mà đem lại được dấu hiệu hữu ích phần nội dung.

Thu được một phần biểu hiện ngắn như thế sẽ là một bước quan trọng trong việc hiện thực hóa khả năng phân loại hàng triệu hình ảnh trên Internet tự động. Hiện tại, cách duy nhất tìm ảnh được dựa trên lời chú thích ảnh bằng chữ mà mọi người nhập vào mỗi bức ảnh, mà nhiều bức ảnh lại thiếu thông tin này. Nhận diện tự động sẽ đem lại một phương pháp chú thích những bức ảnh mọi người tải từ máy ảnh kỹ thuật số vào máy tính mà không phải điền chú thích cho từng bức ảnh bằng tay. Và đặc biệt nó có thể dẫn đến hình ảnh máy chân thực, điều mà một ngày nào đó có thể cho phép hình dung được dữ liệu nhập vào từ máy ảnh và biết được chúng là gì.

Theo Torralba “Chúng tôi đang cố gắng tìm ra những đoạn mã rất ngắn cho hình ảnh để nếu có hai hình ảnh có chuỗi số tương tự, chúng có lẽ được chụp gần giống nhau hoặc gần như cùng một đối tượng, trong gần như cùng hoàn cảnh.” Nếu một ảnh được nhận diện với chú thích hoặc tiêu đề thì những tấm ảnh khác phù hợp với mã số của nó có lẽ sẽ về cùng một vật thể (ví dụ như ô tô, cây hoặc người) và vì vậy tên liên quan đến một bức ảnh có thể được chuyển đến cho những bức ảnh khác.

Theo Torralba “Với một lượng ảnh vô cùng lớn, thậm chí những phép toán khá đơn giản cũng có thể thực hiện khá tốt” trong việc nhận diên ảnh theo cách này. Torralba sẽ trình bày phát hiện của mình vào tháng 5 ở hội thảo về Nhận diện Mẫu và hình ảnh máy tính, Alaska. Công trình này được thực hiện cùng với Rob Fergus tại Viện Courant, ĐH New York và ĐH Do thái Yair Weiss, Jerusalem.

(Ảnh: Antonio Torralba)

Câu hỏi: Bạn nhìn thấy gì trong những vòng tròn màu đỏ? Một cái chai, chiếc điện thoại di động, một người và một chiếc giày? Trả lời: Chúng chỉ là một! Giảng viên Antonio Torralba đã tạo ra những bức ảnh có độ phân giải thấp này, sau đó chèn vào đối tượng trong vòng tròn đỏ, qua đó cho thấy ngoại cảnh tác động đến quá trình nhận biết vật thể của chúng ta ra sao. Ngay cả chiếc ô tô trong tấm ảnh bên dưới phía trái cũng là cùng một thứ.

Để tìm ra bao nhiêu lượng thông tin tối thiểu là đủ để mọi người nhận ra vật thể trong một bức ảnh, Torralba và đồng tác giả cố gắng giảm hình ảnh xuống độ phân giải càng lúc càng thấp, và xem mọi người có thể xác định được bao nhiêu ảnh ở mỗi cấp độ.

“Chúng tôi có thể nhận ra cái gì nằm trong bức ảnh, thậm chí độ phân giải là rất thấp vì chúng tôi biết rất nhiều về ảnh. Lượng thông tin mà bạn cần để xác định phần lớn ảnh là khoảng 32x32.” Ngược lại, thậm chí ảnh thu nhỏ hiển hiện trên kết quả tìm kiếm của Google thường là 100x100.

Thậm chí một máy ảnh kỹ thuật số phải chăng hiện nay cũng cho ra những bức ảnh chứa đơn vị megapixel dữ liệu – và mỗi pixel thường chứa 24 bit (0 hoặc 1) dữ liệu. Nhưng Torralba và cộng sự đã tạo nên một hệ thống toán học có thể giảm dữ liệu từ mỗi ảnh nhiều hơn và hóa ra nhiều bức ảnh đều có thể nhận diện được thậm chí khi được mã hóa thành biểu thị toán học chứa 256 đến 1024 bit dữ liệu.

Sử dụng lượng thông tin nhỏ như thế trên mỗi ảnh khiến ta có thể tìm kiếm những bức ảnh tương tự nhau trong hàng triệu bức ảnh trong cơ sở dữ liệu, sử dụng một máy tính cá nhân với thời gian ít hơn 1 giây. Và không như những phương pháp khác đòi hỏi phải phân tách từng bức ảnh thành những mục nhỏ chứa những vật thể khác nhau, phương pháp này sử dụng toàn bộ ảnh, khiến cho việc áp dụng nó vào những bộ dữ liệu lớn dễ dàng hơn mà không cần sự can thiệp của con người.

Ví dụ, sử dụng hệ thống mã hóa mà họ phát triển, Torralba và cộng sự có thể hiển thị 12.9 triệu ảnh từ Internet chỉ với 600 megabyte dữ liệu – vừa đủ nhỏ để vừa với bộ nhớ RAM của phần lớn máy tính cá nhân hiện tại, và có thể lưu trữ trên một thẻ nhớ. Dữ liệu ảnh và phần mềm tìm kiếm dữ liệu hiện đang được công bố trên mạng.

Dĩ nhiên, một hệ thống giảm thiểu tối đa lượng thông tin không thể đạt đến nhận diện hoàn toàn. Hiện tại, phương pháp ghép nối hoạt động trên các loại hình ảnh phổ biến nhất. “Không phải tất cả các ảnh được tạo ra như nhau.” Hình ảnh càng phức tạp hoặc lạ lùng thì nó càng khó ghép nối. Nhưng đối với phần lớn các vật thể phổ biến nhất trong ảnh – người, hoa, ô tô, tòa nhà – kết quả thu được rất ấn tượng.

Công trình này là một phần của nghiên cứu được thực hiện bởi hàng trăm nhóm trên toàn thế giới, nhằm vào việc phân tích nội dung của thông tin hình ảnh. Torralba cũng cộng tác trong các công trình liên quan với những nhà nghiên cứu MIT khác như William Freeman, giảng viên tại Khoa Điện tử và Khoa học máy tính; Aude Oliva, giảng viên Khoa Khoa học não và nhận thức, nghiên cứu sinh tiến sĩ Bryan Russell và Ce Liu, thuộc CSAIL. Công trình của Torralba được hỗ trợ một phần thông qua Quỹ Tài trợ khoa học quốc gia.

Torralba nhấn mạnh rằng công trình này vẫn đang ở giai đoạn sơ khai và còn có nhiều vấn đề trong việc nhận dạng những vật thể bất thường hơn. Nó cũng giống như cách chúng ta nhận biết ngôn ngữ. “Có nhiều từ bạn nghe rất thường xuyên, nhưng cho dù bạn có sống ở đấy bao lâu đi chăng nữa, cũng sẽ có từ bạn chưa hề biết đến. Bạn luôn luôn cần hiểu được một điều gì mới từ một ví dụ.” 

Từ khóa liên quan:
TIN CŨ HƠN
Tên miền .xxx có bị “xếp xó” thêm lần nữa?

Tên miền .xxx có bị “xếp xó” thêm lần nữa?

ICANN đang chuẩn bị bỏ phiếu cho bản dự thảo về tên miền .xxx - khu “đèn đỏ” dành cho các trang web khiêu dâm. Tuy nhiên, lần này, tổ chức lại tiếp tục vấp phải những phản ứng mạnh mẽ từ phía các ông chủ của ngành “công nghiệp khiêu d&aci

Đăng ngày: 26/09/2025
NTT Resonant - công cụ search độc đáo của Nhật Bản

NTT Resonant - công cụ search độc đáo của Nhật Bản

Tập đoàn Bưu chính viễn thông Nhật Bản NTT vừa tiến hành một cuộc kiểm tra công cụ tìm kiếm thông tin trên Internet. Công cụ tìm kiếm NTT Resonant mang nét đặc thù mới, các kết quả tìm kiếm thông tin chỉ hiển thị trên một trang d

Đăng ngày: 18/08/2025
Treo ảnh của bạn lên Desktop

Treo ảnh của bạn lên Desktop

Sẽ có lúc bạn cảm thấy chán giao diện màn hình lúc nào cũng chỉ có một hình background. Với phần mềm XDeskPhoto thì điều đó “không có gì là khó tưởng tượng“.

Đăng ngày: 16/08/2025
Những điều cần biết về pin lithium-ion và cách tránh chai pin

Những điều cần biết về pin lithium-ion và cách tránh chai pin

Đây là những phương pháp chống chai pin có cơ sở khoa học dựa trên đặc tính của pin lithium-ion.

Đăng ngày: 04/08/2025
Cách đơn giản để giữ bí mật các file cá nhân

Cách đơn giản để giữ bí mật các file cá nhân

Chỉ có một cách để giữ cho các file một cách bí mật đó là mã hóa chúng. Encrypting File System (EFS) trong hầu hết các thế hệ của Windows Vista, XP, 2000 mã hóa nội dung các file và thư mục, làm cho chúng trở lên khó khăn đối với những ng

Đăng ngày: 03/07/2025
20 trang web kỳ quặc trên thế giới

20 trang web kỳ quặc trên thế giới

Bạn sẽ không bao giờ biết tới những trang web kỳ quặc này cho đến khi..... bạn thực sự cần chúng.

Đăng ngày: 16/06/2025
Một số thủ thuật khi in văn bản trong MS Word

Một số thủ thuật khi in văn bản trong MS Word

MS Word: Trong thư liên hệ gửi về ban quản trị QuanTriMang.com có một số bạn hỏi về cách in tài liệu trong Word như: Làm thế nào để in được 4 trang văn bản trên cùng 1 mặt giấy? Làm thế nào để khi in 2 trang văn bản ở 2 mặt của tờ giấy có lề bên trái cùng kích thước để khi đóng gáy không bị mất chữ... Sau đây QuanTriMang.com sẽ hướng dẫn 1 số thủ

Đăng ngày: 15/08/2024
Khoa Học News