Tuần trước, Đại diện mới được bầu của Hoa Kỳ Alexandria Ocasio-Cortez đã gây chú ý khi nói, như một phần của sự kiện MLK Now thường niên lần thứ tư, rằng các công nghệ và thuật toán nhận dạng khuôn mặt "luôn có những bất bình đẳng chủng tộc được dịch, bởi vì thuật toán vẫn được tạo ra bởi con người, và những thuật toán đó vẫn được gắn với các giả định cơ bản của con người. Chúng chỉ là tự động. Và các giả định tự động - nếu bạn không khắc phục sai lệch, thì bạn chỉ tự động hóa sai lệch. "
Điều đó có nghĩa là các thuật toán, về mặt lý thuyết dựa trên các sự thật khách quan của toán học, có thể là "phân biệt chủng tộc?" Và nếu vậy, những gì có thể được thực hiện để loại bỏ sự thiên vị đó?
Nó chỉ ra rằng đầu ra từ các thuật toán thực sự có thể tạo ra kết quả sai lệch. Các nhà khoa học dữ liệu nói rằng các chương trình máy tính, mạng lưới thần kinh, thuật toán học máy và trí tuệ nhân tạo (AI) hoạt động vì họ học cách ứng xử từ dữ liệu mà họ đưa ra. Phần mềm được viết bởi con người, những người có thành kiến và dữ liệu đào tạo cũng được tạo ra bởi những người có thành kiến.
Hai giai đoạn của học máy cho thấy sự thiên vị này có thể len lỏi vào một quy trình dường như tự động. Trong giai đoạn đầu tiên, giai đoạn đào tạo, một thuật toán học dựa trên một tập hợp dữ liệu hoặc dựa trên các quy tắc hoặc hạn chế nhất định. Giai đoạn thứ hai là giai đoạn suy luận, trong đó một thuật toán áp dụng những gì nó đã học được trong thực tế. Giai đoạn thứ hai này cho thấy sự thiên vị của một thuật toán. Ví dụ, nếu một thuật toán được đào tạo với hình ảnh chỉ những phụ nữ có mái tóc dài, thì nó sẽ nghĩ bất cứ ai có mái tóc ngắn là đàn ông.
Google nổi tiếng đã bị hỏa hoạn vào năm 2015 khi Google Photos gán cho người da đen là khỉ đột, rất có thể vì đó là những sinh vật da đen duy nhất trong tập huấn luyện.
Và sự thiên vị có thể len lỏi qua nhiều con đường. "Một sai lầm phổ biến là đào tạo một thuật toán để đưa ra dự đoán dựa trên các quyết định trong quá khứ từ những người thiên vị", Sophie Searcy, một nhà khoa học dữ liệu cao cấp tại bootcamp đào tạo khoa học dữ liệu, nói với Live Science. "Nếu tôi tạo ra một thuật toán để tự động hóa các quyết định được đưa ra trước đây bởi một nhóm nhân viên cho vay, tôi có thể đi theo con đường dễ dàng và huấn luyện thuật toán về các quyết định trong quá khứ từ các nhân viên cho vay đó. Nhưng, tất nhiên, nếu những nhân viên cho vay đó bị thiên vị, thì thuật toán tôi xây dựng sẽ tiếp tục những thành kiến đó. "
Searcy đã trích dẫn ví dụ về COMPAS, một công cụ dự đoán được sử dụng trên toàn hệ thống tư pháp hình sự của Hoa Kỳ để tuyên án, cố gắng dự đoán nơi tội phạm sẽ xảy ra. ProPublica đã thực hiện một phân tích trên COMPAS và nhận thấy rằng, sau khi kiểm soát các giải thích thống kê khác, công cụ đã đánh giá quá cao nguy cơ tái phạm đối với các bị cáo da đen và luôn đánh giá thấp rủi ro cho các bị cáo da trắng.
Để giúp chống lại sự thiên vị thuật toán, Searcy nói với Live Science, các kỹ sư và nhà khoa học dữ liệu nên xây dựng các bộ dữ liệu đa dạng hơn cho các vấn đề mới, cũng như cố gắng hiểu và giảm thiểu sự thiên vị được xây dựng trong các bộ dữ liệu hiện có.
Trước hết, theo ông Co Coot, một nhà khoa học dữ liệu tại công ty phân tích dự đoán Anodot, các kỹ sư nên có một bộ huấn luyện với sự đại diện tương đối thống nhất của tất cả các loại dân số nếu họ đào tạo một thuật toán để xác định các thuộc tính dân tộc hoặc giới tính. "Điều quan trọng là phải trình bày đủ các ví dụ từ mỗi nhóm dân số, ngay cả khi họ là thiểu số trong tổng dân số đang được kiểm tra", Cohen nói với Live Science. Cuối cùng, Cohen khuyên bạn nên kiểm tra các thành kiến trên một bộ kiểm tra bao gồm những người thuộc tất cả các nhóm này. "Nếu, đối với một chủng tộc nhất định, độ chính xác thấp hơn đáng kể về mặt thống kê so với các loại khác, thuật toán có thể có sai lệch và tôi sẽ đánh giá dữ liệu đào tạo được sử dụng cho nó," Cohen nói với LiveScience. Ví dụ: nếu thuật toán có thể xác định chính xác 900 trên 1.000 khuôn mặt trắng, nhưng chỉ phát hiện chính xác 600 trong số 1.000 khuôn mặt châu Á, thì thuật toán có thể có xu hướng "chống lại" người châu Á, Cohen nói thêm.
Loại bỏ sự thiên vị có thể là thách thức vô cùng cho AI.
Ngay cả Google, được coi là tiền thân trong AI thương mại, dường như không thể đưa ra giải pháp toàn diện cho vấn đề khỉ đột của mình từ năm 2015. Wired nhận thấy thay vì tìm cách để thuật toán của mình phân biệt giữa người da màu và khỉ đột, Google chỉ đơn giản chặn thuật toán nhận dạng hình ảnh của nó từ việc xác định khỉ đột.
Ví dụ của Google là một lời nhắc nhở tốt rằng đào tạo phần mềm AI có thể là một bài tập khó, đặc biệt khi phần mềm không được kiểm tra hoặc đào tạo bởi một nhóm người đại diện và đa dạng.