AI nhận diện vật dụng gia đình của người dân các nước thu nhập thấp kém hơn các nước phát triển
Đây là một ví dụ cho thấy sự "thiên lệch" của AI, phản ánh tình trạng bất bình đẳng toàn cầu đang diễn ra như thế nào.
Các thuật toán nhận diện vật thể do các công ty như Google, Microsoft và Amazon cung cấp hoạt động kém chính xác hơn khi được yêu cầu nhận diện các đồ dùng của người dân đến từ các nước có thu nhập thấp.
Đây là kết quả của một nghiên cứu được tiến hành bởi phòng thí nghiệm Trí tuệ nhân tạo cảu Facebook. Nghiên cứu cho thấy sự thiên lệch của AI không chỉ là minh chứng cho tình trạng bất bình đẳng đang tồn tại trong nội bộ các quốc gia, mà còn là giữa các quốc gia với nhau.
Các nhà nghiên cứu đã thử nghiệm năm thuật toán nhận diện vật thể phổ biến nhất do các "gã khổng lồ" công nghệ cung cấp — bao gồm Microsoft Azure, Clarifai, Google Cloud Vision, Amazon Rekognition và IBM Watson — để kiểm chứng xem các phần mềm này nhận diện các đồ vật trong nhà chính xác đến mức nào. Hình ảnh được lấy từ một bộ dữ liệu thu thập trên phạm vi toàn cầu.
Bộ dữ liệu bao gồm 117 nhóm vật thể (gồm gần như tất cả mọi thứ, từ xà phòng tắm cho đến ghế sofa), được thu thập từ các hộ gia đình đến từ nhiều khu vực địa lý và có mức thu nhập khác nhau (từ một gia đình ở Burundi có thu nhập trung bình 27 USD/tháng cho tới một gia đình ở Ukraine có thu nhập hàng tháng đạt mức 10.090 USD).
Các nhà nghiên cứu đã phát hiện ra rằng thuật toán nhận diện vật thể mắc lỗi khi nhận diện đồ đạc của một gia đình có mức thu nhập trung bình tháng 50 USD nhiều hơn 10% so với đồ đạc của một gia đình kiếm được trên 3.500 USD/tháng. Nếu so sánh trị số tuyệt đối về độ chính xác, sự khác biệt còn lớn hơn nữa: thuật toán nhận diện các vật dụng của các hộ gia đình Mỹ chính xác hơn từ 15-20% so với vật dụng của các gia đình đến từ Somalia và Burkina Faso.
Các kết quả nghiên cứu này "tương đối thống nhất giữa các dịch vụ đám mây cung cấp tính năng nhận diện hình ảnh," các tác giả của nghiên cứu cho hay.
Bức ảnh nhận diện xà phòng của AI.
Trong bức ảnh trên, các nhà nghiên cứu cho 5 hệ thống nhận diện vật thể "xem" hai bức ảnh xà phòng, bên trái là xà phòng dạng bánh nhiều màu sắc, được chụp ở một gia đình Nepal có thu nhập trung bình 288 USD/tháng, còn bên phải là một lọ xà phòng dạng lỏng được chụp ở một hộ gia đình tại Anh, với mức thu nhập trung bình 1890 USD/tháng. Có thể thấy, các AI thường nhận nhầm "bánh xà phòng" của Nepal thành các loại đồ ăn như "bánh mì", "bánh ngọt", "sandwich" (AI của Azure), "nấu nướng", "thơm ngon", "tốt cho sức khoẻ" (AI của Clarfifai), "ẩm thực", "món ăn" (AI của Google), "kẹo", "bánh burger" (AI của Amazon), "sản phẩm đồ ăn", "món ăn theo mùa", "củ nghệ" (AI của Watson), "đồ ăn nhanh", "chất dinh dưỡng" (AI của Tencent)…
Trong khi đó, khi nhận diện hình ảnh lọ xà phòng của hộ gia đình Anh, các AI cho kết quả khá chính xác với các từ khoá: "bồn rửa mặt", "vòi nước", "chất lỏng", "nước", phòng vệ sinh", "vật dụng phòng tắm", "xà phòng", "nước dưỡng thể", "lọ đựng xà phòng dạng bơm"…
Sự "thiên lệch" này là một vấn đề phổ biến đối với các hệ thống trí tuệ nhân tạo và có nhiều nguồn gốc nguyên nhân khác nhau. Một trong số những vấn đề phổ biến nhất là do dữ liệu huấn luyện AI được sử dụng để tạo nên các thuật toán thường phản ánh cuộc sống và nguồn gốc xuất thân của các kĩ sư tạo ra chúng. Do những người kĩ sư nghiên cứu về trí tuệ nhân tạo thường là đàn ông da trắng đến từ các quốc gia có thu nhập cao, nên cái "thế giới" mà AI được học cũng chính là thế giới của những kĩ sư đó.
Một trong những ví dụ được biết đến nhiều nhất về sự thiên lệch của AI chính là các thuật toán nhận diện khuôn mặt, vốn thường xuyên hoạt động kém chính xác và hiệu quả khi nhận diện gương mặt nữ giới, nhất là phụ nữ da màu. Dạng thiên lệch này có thể "bén rễ" sâu vào mọi loại hệ thống, từ các thuật toán được thiết kế để hỗ trợ những nhà tuyển dụng đang cần duyệt qua hàng nghìn hồ sơ và CV của các ứng viên trước khi mời họ đến buổi phỏng vấn trực tiếp.
Trong trường hợp của các thuật toán nhận diện vật thể, các tác giả của nghiên cứu này cho biết có một số nguyên nhân có thể dẫn tới những sai sót trên: đầu tiên, dữ liệu huấn luyện được sử dụng để tạo ra các hệ thống AI thường bị giới hạn ở một khu vực địa lý cụ thể, và thứ hai, chúng phản ánh những sự khác biệt văn hoá sâu sắc.
Các tác giả cũng cho biết, dữ liệu huấn luyện dùng cho các thuật toán quan sát và nhận diện hình ảnh, thường được lấy từ các quốc gia châu Âu và Bắc Mỹ, do vậy chúng "thiếu đi rất nhiều mẫu dữ liệu hình ảnh của nhiều khu vực địa lý với dân số đông đảo khác trên thế giới, bao gồm châu Phi, Ấn Độ, Trung Quốc và các quốc gia Đông Nam Á".
Tương tự, đa số các bộ dữ liệu hình sử dụng các danh từ tiếng Anh làm điểm khởi đầu và dựa vào đó để thu thập các dữ liệu tương đương khác. Điều này sẽ dẫn đến tình trạng khi đặt vào bối cảnh một quốc gia khác, danh từ tiếng Anh đó sẽ không thể biểu thị bất kỳ đồ vật nào hoặc ý nghĩa của nó sẽ bị sai lệch hẳn. Các tác giả lấy ví dụ về xà phòng trong bức ảnh trên: ở một số quốc gia, xà phòng thường có dạng bánh, trong khi ở quốc gia khác xà phòng lại thường ở dạng lỏng. Hoặc một đám cưới ở Mỹ so với ở Ấn Độ có thể sẽ có hình thức rất khác biệt.
Nhưng vì sao điều này lại quan trọng? Bởi vì các hệ thống hoạt động dựa trên những thuật toán này sẽ hạot động thiếu chính xác đối với người dân đến từ các nước có thu nhập thấp hoặc không phải phương Tây. Do các công ty công nghệ Mỹ hiện đang là những người dẫn đầu trong lĩnh vực trí tuệ nhân tạo (AI), nên thực trạng trên có thể ảnh hưởng tới gần như tất cả mọi dịch vụ dựa trên công nghệ này, từ tính năng tìm kiếm hình ảnh của các dịch vụ lưu trữ hình ảnh trực tuyến, cho đến các hệ thống có vai trò tối quan trọng như camera an ninh tự động và xe tự lái.
Tuy nhiên, đây mới chỉ là phần nổi của tảng băng chìm. Các thuật toán hình ảnh tương đối dễ để huấn luyện lại để loại bỏ những "thiên lệch" dạng như trên; song nhà sản xuất của những phần mềm này còn có thể sẽ là "đầu tàu" của cả một ngành công nghiệp đầy những thuật toán không có sự giám sát sát sao tương tự để đảm bảo tính "công bằng" của thông tin và dữ liệu giữa các quốc gia, các vùng lãnh thổ.
Các công ty ở Thung lũng Silicon thường xuyên thúc đẩy, quảng bá các công nghệ trí tuệ nhân tạo (AI) của mình là rất "công bình" và tất cả mọi người đều có thể sử dụng. Tuy nhiên, những nghiên cứu như thế này đã cho thấy cách thức mà các công ty công nghệ tiếp tục định hình thế giới theo góc nhìn riêng của họ như thế nào.