Microsoft thầm lặng công bố phần mềm AI mới, nhại giọng con người chỉ với 3 giây thu âm

Các nhà khoa học công tác tại Microsoft vừa công bố một báo cáo liên quan tới một hệ thống tạo ra giọng nói từ văn bản. Có tên gọi VALL-E, hệ thống mới của Microsoft không khiến nhiều người bất ngờ, khi những ví dụ kiểu “chị Google” đã quá nổi tiếng với người dùng Internet.

Nhưng khi đọc báo cáo, chúng ta mới có thể thấy những chi tiết gây bất ngờ hay thậm chí rùng mình. Các nhà khoa học khẳng định VALL-E “có thể được sử dụng để tổng hợp giọng nói cá nhân với chất lượng cao, chỉ với dữ liệu đầu vào là một đoạn thu âm dài 3 giây của một người nói không rõ mặt”.

Microsoft thầm lặng công bố phần mềm AI mới, nhại giọng con người chỉ với 3 giây thu âm
Phần mềm tạo giọng nói ảo VALL-E có tiềm năng, mà cũng mang nhiều nguy cơ - (Ảnh: Internet).

Hay nói một cách khác, hệ thống của Microsoft chỉ cần nghe chúng ta nói 3 giây là đã có thể tổng hợp được một giọng nói giống với nguyên bản. Theo báo cáo, cơ sở dữ liệu được sử dụng trong huấn luyện VALL-E do Meta (công ty mẹ của Facebook) tổng hợp nên, và bao gồm 60.000 giờ thoại được thực hiện bởi 7.000 người.

Phóng viên công nghệ làm việc tự do Chris Matyszczyk đã nghe thử một số đoạn ghi âm, và đưa ra cảm nhận của mình trên trang tin ZDNet. Ông nghe một giọng nam phát biểu trong 3 giây, nghe đoạn âm thanh dài 8 giây do VALL-E sản sinh ra, rồi nhận định: khó có thể nhận ra đâu là con người phát biểu, đâu là AI phát ra âm thanh.

Mặc dù cách dùng từ của VALL-E vẫn chưa thực sự giống người, ông vẫn nhận định ông cảm thấy “đáng sợ”.

Đa số chúng ta đã quen với những cuộc gọi tự động, nơi một giọng nói được ghi âm sẵn hoặc một giọng nói tự động vang lên tại đầu dây bên kia. Với một hệ thống như VALL-E, giọng nói máy nay có thể đạt tới mức độ trau chuốt chưa từng có.

Và thật khó nhận xét tương lai có thể ra sao khi kẻ gian có thể lợi dụng một cuộc điện thoại để ghi âm giọng của bạn, rồi giả danh chính bạn đi lừa người khác. Càng đáng lo ngại khi các nhà nghiên cứu khẳng định họ có thể tái tạo cả “cảm xúc và môi trường âm thanh” chỉ với đoạn ghi âm dài 3 giây.

Các nhà nghiên cứu - những cha đẻ của hệ thống VALL-E cũng không có cách giải quyết sáng tạo nào, cho rằng cách thức tốt nhất hiện nay là xây dựng một hệ thống phát hiện giọng nói tạo ra bởi máy. Chúng ta cũng khó có thể thắc mắc tại sao họ lại làm thế, bởi lẽ trong ngành công nghệ, đa số sẽ trả lời "cứ làm được là làm thôi".

Từ khóa liên quan:
Loading...
TIN CŨ HƠN
Khoảng 100 triệu máy tính sắp bị Chrome bỏ rơi

Khoảng 100 triệu máy tính sắp bị Chrome bỏ rơi

Các phiên bản hệ điều hành Windows 7 và Windows 8/8.1 sẽ không được hỗ trợ bởi Google Chrome mới nhất.

Đăng ngày: 18/01/2023
Nvidia A100 - Card đồ họa đắt nhất thế giới có giá lên tới 30.000 USD

Nvidia A100 - Card đồ họa đắt nhất thế giới có giá lên tới 30.000 USD

Nvidia A100 là một card đồ họa cấp cao với bộ nhớ 80 GB, băng thông 2 Tb/s và được xem là card đồ họa đắt nhất hiện nay với giá bán lẻ lên đến 30.000 USD.

Đăng ngày: 13/01/2023
Công nghệ LiFi là gì? Liệu LiFi có tốc độ nhanh hơn 100 lần so với WiFi như tuyên bố?

Công nghệ LiFi là gì? Liệu LiFi có tốc độ nhanh hơn 100 lần so với WiFi như tuyên bố?

Gần đây đã có vô số những cuộc tranh cãi xung quanh một công nghệ mới lạ mắt được gọi là " LiFi", với tuyên bố gây sốc rằng LiFi có thể cung cấp kết nối internet nhanh hơn 100 lần so với các dịch vụ WiFi hiện có.

Đăng ngày: 10/01/2023
Cách chặn tin nhắn rác trên iPhone

Cách chặn tin nhắn rác trên iPhone

Là ứng dụng tin nhắn phổ biến, được nhiều người sử dụng và hoàn toàn miễn phí, iMessage thường xuyên bị lợi dụng để phát tán các tin nhắn quảng cáo, lừa đảo làm phiền người dùng.

Đăng ngày: 28/12/2022
World Cup 2022: CĐV trên sân có thể

World Cup 2022: CĐV trên sân có thể "check" VAR như trọng tài, xem được cả thông số cầu thủ theo thời gian thực

Với sự hỗ trợ của ứng dụng FIFA+, khán giả trên sân có thể theo dõi một cách chi tiết hơn các cầu thủ như thể đang xem trước màn hình TV.

Đăng ngày: 06/12/2022
Quốc gia đầu tiên trên thế giới được

Quốc gia đầu tiên trên thế giới được "số hóa" trên metaverse

Tuvalu - đảo quốc nằm trên Thái Bình Dương xây dựng một phiên bản của chính quốc gia này trong metaverse nhằm bảo tồn lịch sử và văn hóa của đất nước.

Đăng ngày: 18/11/2022
Nơi nào cáp quang dễ bị đứt nhất thế giới?

Nơi nào cáp quang dễ bị đứt nhất thế giới?

Đảm nhiệm lưu thông phần lớn Internet toàn cầu, nhưng cáp quang biển lại rất " mong manh", đặc biệt là tuyến cáp đi qua Biển Đỏ giúp kết nối Việt Nam đến thế giới.

Đăng ngày: 07/11/2022
Tiêu điểm
Khoa Học News