Trí tuệ nhân tạo hiểu được cử động môi

Nghiên cứu mới nhất cho thấy máy tính có thể hiểu tới hơn 90% những điều được nói chỉ bằng cách quan sát cử động môi mà không cần nghe âm thanh.

Theo trang khoa học Technology Review, khả năng đọc cử động của môi người khi nói là điều đặc biệt khó khăn vì còn tùy thuộc vào ngữ cảnh cũng như hiểu biết về ngôn ngữ tự nhiên được nói, căn cứ theo các chuyển động của miệng khi phát âm.

Tuy nhiên, các nhà nghiên cứu vừa chứng minh rằng thuật toán machine learning có thể hiểu được những ngôn ngữ được nói ra trong các đoạn video câm (không có âm thanh) còn hiệu quả hơn cả những người chuyên đọc tín hiệu của môi.

Trí tuệ nhân tạo hiểu được cử động môi
Trí tuệ nhân tạo (AI) và machine learning có thể hiểu được ý nghĩa nội dung của những cử động mấp máy môi người, độ chính xác cao hơn người có khả năng đọc mấp máy môi - (Ảnh: TechnologyReview).

Cụ thể, trong dự án nghiên cứu thứ nhất, nhóm nghiên cứu của Khoa Khoa học máy tính Đại học Oxford đã phát triển hệ thống trí tuệ nhân tạo (AI) mới có tên là LipNet. Hệ thống này được xây dựng trên bộ dữ liệu có tên là GRID vốn được tạo ra từ hàng loạt các đoạn clip quay lại hình ảnh mọi người mấp máy cử động môi ra sao khi đọc những câu có độ dài 3 giây. Mỗi câu này đều dựa trên một chuỗi các từ có dạng thức mấp máy môi tương tự.

Theo đó nhóm nghiên cứu đã sử dụng bộ dữ liệu để "đào luyện" một mạng "thần kinh nhân tạo" (neural network), tương tự như loại thường được sử dụng để xử lý quá trình nhận diện tiếng nói.

Nhưng trong trường hợp này, mạng thần kinh nhân tạo lại có nhiệm vụ xác định những dạng thức khuôn miệng khác nhau, học cách kết nối thông tin đó với phần nội dung giải thích những gì đang được nói ra.

Khi thử nghiệm,hệ thống trí tuệ nhân tạo này đã có thể xác định được tới 93,4% chính xác các từ đã được nói. Các tình nguyện viên tham gia thử nghiệm đọc máy môi thực hiện nhiệm vụ tương tự mà máy đã làm và chỉ xác định được các từ với tỉ lệ chính xác là 52,3%.

Bên cạnh dự án này, trang New Scientist còn dẫn ra một dự án nghiên cứu khác của nhóm nghiên cứu thuộc Khoa Khoa học kỹ thuật của Đại học Oxford. Trong đó, nhóm này tiến hành công việc tương tự nhưng với hệ thống DeepMind của Google và thực hiện ở cấp độ khó khăn hơn.

Thay vì sử dụng bộ dữ liệu sạch và liên tục như GRID, họ sử dụng một loạt 100.000 video clip cắt ra từ các chương trình của đài BBC. Các đoạn băng này có quy mô sử dụng ngôn ngữ rộng hơn nhiều và sự đa dạng trong tư thế đầu của người nói và môi trường ánh sáng khác nhau.

Trí tuệ nhân tạo hiểu được cử động môi
Công nghệ đọc máy môi trí tuệ nhân tạo DeepMind của Google - (Ảnh: Yahoo).

Sử dụng một phương pháp xử lý tương tự, nhóm nghiên cứu đã tạo ra được công nghệ trí tuệ nhân tạo có khả năng xác định được các từ chính xác với tỉ lệ 46,8%. Như vậy cũng đã là tốt hơn nhiều so với con người khi chỉ đạt 12,4% tỉ lệ chính xác trong dự án này.

Ở dự án nghiên cứu thứ hai, có những lý do rất rõ ràng cho thấy vì sao độ chính xác thấp hơn dự án trước, từ sự đa dạng về ánh sáng trong các clip cho tới những tư thế đa dạng của người nói và độ phức tạp hơn nhiều của ngôn ngữ sử dụng.

Tuy nhiên, bất kể những khác biệt, cả hai dự án nghiên cứu đều cho thấy trí tuệ nhân tạo đều đã vượt trội hơn nhiều so với con người về khả năng đọc mấp máy môi. Cũng không khó gì để người ta có thể hình dung về các ứng dụng tiềm năng cho công nghệ này.

Loading...
TIN CŨ HƠN
Singapore đã dùng công nghệ để biến nước thải thành nước uống ra sao?

Singapore đã dùng công nghệ để biến nước thải thành nước uống ra sao?

Từng phải đối mặt với vấn nạn tương tự khoảng 5 thập kỷ trước, quốc gia láng giềng Singapore đã có những phương pháp rất khôn ngoan để giải quyết triệt để vấn nạn ô nhiễm.

Đăng ngày: 25/11/2016
Nguồn gốc hình thành siêu ngân hà trong vũ trụ

Nguồn gốc hình thành siêu ngân hà trong vũ trụ

Nhóm nghiên cứu Trung Quốc phát triển thuật toán được cho là có khả năng nhận diện các đặc điểm của tội phạm trên khuôn mặt đối tượng với tỷ lệ chính xác gần 90%.

Đăng ngày: 24/11/2016
Những hệ thống vũ khí hạt nhân đáng sợ nhất thế giới

Những hệ thống vũ khí hạt nhân đáng sợ nhất thế giới

Vũ khí quân sự là 1 phương diện phản ánh sức mạnh quốc phòng, đồng thời thể hiện tiềm lực của 1 quốc gia.

Đăng ngày: 24/11/2016
Hệ thống giảm xóc siêu bền lấy ý tưởng từ bọ giáp sắt, xe cán mìn vẫn không hỏng

Hệ thống giảm xóc siêu bền lấy ý tưởng từ bọ giáp sắt, xe cán mìn vẫn không hỏng

Để tăng khả năng chống chịu trước các vụ nổ cho phương tiện quân sự, BAE Systems đã tìm kiếm câu trả lời từ loài bọ cứng nhất trong thế giới tự nhiên - bọ giáp sắt (ironclad beetle).

Đăng ngày: 24/11/2016
Các nhà khoa học Nga tìm ra cách tách vàng từ than

Các nhà khoa học Nga tìm ra cách tách vàng từ than

Các nhà khoa học Nga cho biết họ đang xây dựng một cơ sở sản xuất vàng từ than tại vùng Viễn Đông.

Đăng ngày: 24/11/2016
Tìm ra cách chế

Tìm ra cách chế "siêu pin" sạc vài giây, dùng cả tuần

Các nhà nghiên cứu đã tìm ra một phương pháp mới để tạo ra "siêu pin", có thể thay đổi cách chúng ta sạc mọi thứ, từ điện thoại tới xe hơi. Siêu pin sẽ cho phép thiết bị sạc đầy cực nhanh nhưng đủ năng lượng dùng cho cả tuần.

Đăng ngày: 23/11/2016
Trí tuệ nhân tạo của Google có thêm kỹ năng học nhanh

Trí tuệ nhân tạo của Google có thêm kỹ năng học nhanh

Kĩ thuật mới được tìm ra có thể giúp trí tuệ nhân tạo đạt tới 87% hiệu suất của những tay chơi kiệt xuất trong trò chơi.

Đăng ngày: 23/11/2016
Tiêu điểm
Khoa Học News