AI lắng nghe tiếng nói của mọi người. Sau đó, nó tạo ra khuôn mặt của họ.

Pin
Send
Share
Send

Bạn đã bao giờ xây dựng một hình ảnh tinh thần của một người bạn chưa từng thấy, chỉ dựa trên giọng nói của họ? Trí tuệ nhân tạo (AI) giờ đây có thể làm điều đó, tạo ra hình ảnh kỹ thuật số về khuôn mặt của một người chỉ bằng một đoạn âm thanh ngắn gọn để tham khảo.

Được đặt tên là Speech2Face, mạng lưới thần kinh - một máy tính "nghĩ" theo cách tương tự như bộ não con người - đã được các nhà khoa học đào tạo trên hàng triệu video giáo dục từ internet cho thấy hơn 100.000 người khác nhau nói chuyện.

Từ bộ dữ liệu này, Speech2Face đã học được mối liên hệ giữa tín hiệu giọng nói và các đặc điểm thể chất nhất định trên khuôn mặt người, các nhà nghiên cứu đã viết trong một nghiên cứu mới. AI sau đó đã sử dụng một đoạn âm thanh để mô hình một khuôn mặt quang học phù hợp với giọng nói.

Các phát hiện đã được công bố trực tuyến vào ngày 23 tháng 5 trong bản in của jounral arXiv và chưa được đánh giá ngang hàng.

Rất may, AI không (chưa) biết chính xác một cá nhân cụ thể trông như thế nào chỉ dựa trên giọng nói của họ. Mạng lưới thần kinh đã nhận ra những dấu ấn nhất định trong bài phát biểu chỉ ra giới tính, tuổi tác và sắc tộc, những đặc điểm được chia sẻ bởi nhiều người, các tác giả nghiên cứu báo cáo.

"Như vậy, mô hình sẽ chỉ tạo ra những khuôn mặt trông trung bình", các nhà khoa học viết. "Nó sẽ không tạo ra hình ảnh của các cá nhân cụ thể."

AI đã chỉ ra rằng nó có thể tạo ra khuôn mặt chính xác đến khó tin của con người, mặc dù cách giải thích của nó về mèo thật ra hơi đáng sợ.

Các khuôn mặt được tạo bởi Speech2Face - tất cả đều hướng về phía trước và với biểu cảm trung tính - không khớp chính xác với những người đứng sau giọng nói. Nhưng các hình ảnh thường chụp đúng độ tuổi, dân tộc và giới tính của các cá nhân, theo nghiên cứu.

Tuy nhiên, các giải thích của thuật toán là không hoàn hảo. Speech2Face đã thể hiện "hiệu suất hỗn hợp" khi đối mặt với các biến thể ngôn ngữ. Ví dụ, khi AI nghe đoạn clip âm thanh của một người đàn ông châu Á nói tiếng Trung Quốc, chương trình đã tạo ra hình ảnh khuôn mặt châu Á. Tuy nhiên, khi cùng một người đàn ông nói bằng tiếng Anh trong một đoạn âm thanh khác, AI đã tạo ra khuôn mặt của một người đàn ông da trắng, các nhà khoa học báo cáo.

Thuật toán cũng cho thấy sự thiên vị về giới tính, liên kết giọng nói trầm với khuôn mặt nam và giọng nói cao với khuôn mặt nữ. Và bởi vì bộ dữ liệu đào tạo chỉ đại diện cho các video giáo dục từ YouTube, nên "nó không đại diện cho toàn bộ dân số thế giới", các nhà nghiên cứu viết.

Một mối quan tâm khác về bộ dữ liệu video này phát sinh khi một người xuất hiện trong video YouTube rất ngạc nhiên khi biết rằng sự giống nhau của anh ta đã được đưa vào nghiên cứu, Slate báo cáo. Nick Sullivan, người đứng đầu ngành mật mã với công ty bảo mật internet Cloudflare ở San Francisco, bất ngờ phát hiện ra khuôn mặt của anh ta là một trong những ví dụ được sử dụng để huấn luyện Speech2Face (và thuật toán được sao chép khá gần đúng).

Sullivan đã không đồng ý xuất hiện trong nghiên cứu, nhưng các video YouTube trong bộ dữ liệu này được coi là có sẵn cho các nhà nghiên cứu sử dụng mà không cần xin thêm quyền, theo Slate.

Pin
Send
Share
Send