Programme impressionnant d'intelligence artificielle qui recrée les visages à partir de l'audio

Publié le 09.04.2022

Photos aux images reconstruites après l'échantillon audio (Photo : Capture d'écran/Speech2Face)

La technologie continue de croître à pas de géant, s'appuyant sur divers domaines pour explorer de nouvelles capacités et fonctionnalités. L'une d'entre elles est de pouvoir "reconstruire" le visage d'une personne à travers un fragment de voix.

L'étude Speech2Face présenté en 2019 lors d'une conférence sur la vision et la reconnaissance des formes a montré qu'une intelligence artificielle (IA) peut déchiffrer à quoi ressemble une personne à travers de courts segments audio.

Le document explique que l'objectif des chercheurs Tae-Hyun On, Tali Dekel, Changil Kim, Inbar Mosseri, William T. Freeman et Michael Rubinstein du MIT Science and Research Program n'est pas de reconstruire à l'identique les visages des personnes mais de faire une image avec les caractéristiques physiques liées à l'audio analysé.

Pour y parvenir, ils ont utilisé, conçu et formé un réseau neuronal profond qui a analysé des millions de vidéos prises sur YouTube où il y a des gens qui parlent. Au cours de la formation, le modèle a appris à corréler les voix avec les visages , ce qui lui a permis de produire des images avec des attributs physiques similaires aux locuteurs , notamment l'âge, le sexe et l'origine ethnique.

Coïncidences du programme avec la voix (Photo : Capture d'écran/Speech2Face)

La formation a été réalisée sous supervision et en utilisant la conjonction de visages et de voix issus de vidéos Internet, sans qu'il soit nécessaire de modéliser les caractéristiques physiques détaillées du visage.

« Nos reconstructions, obtenues directement à partir de l'audio, révèlent les corrélations entre les visages et les voix. Nous évaluons et quantifions numériquement comment et de quelle manière nos reconstructions Speech2Face à partir de l'audio ressemblent à des images réelles des visages des locuteurs."

Ils ont détaillé que parce que cette étude pourrait avoir des aspects sensibles en raison de l'ethnicité, ainsi que de la vie privée, c'est qu'aucun aspect physique spécifique n'a été ajouté à la recréation des visages et ils assurent que, comme tout autre système d' apprentissage automatique , celui-ci s'améliore avec le temps, puisqu'à chaque utilisation il augmente sa bibliothèque de connaissances.

Alors que ses tests affichés montrent que Speech2Face a un nombre élevé de correspondances face à voix , il avait également quelques défauts, où il ne correspondait pas à l'origine ethnique, à l'âge ou au sexe avec l'échantillon de voix utilisé.

Exemples d'erreurs. La première photo correspond au visage de la personne dans l'audio et la seconde à celui recréé par le programme (Photo : Capture d'écran/Speech2Face)

Le modèle est conçu pour présenter les corrélations statistiques qui existent entre les traits du visage et la voix . Il convient de rappeler que l'IA a appris des vidéos YouTube, qui ne représentent pas un échantillon réel de la population mondiale, par exemple, dans certaines langues, elle montre des écarts avec les données d'entraînement.

En ce sens, l'étude elle-même recommande, à la fin de ses résultats, que ceux qui décident d'explorer et de moderniser le système prennent en considération un échantillon plus large de personnes et de voix afin que l'apprentissage automatique dispose d'un répertoire plus large d'appariement et de recréation. visages

Le programme a également été en mesure de recréer la voix dans les dessins animés, qui présentent également une ressemblance incroyable avec les voix des audios analysés.

Parce que cette technologie pourrait également être utilisée à des fins malveillantes, la recréation du visage ne garde que la chose la plus proche de la personne et ne donne pas de visages complets, car cela pourrait être un problème pour la vie privée des personnes. Même ainsi, il a surpris ce que la technologie peut faire à partir d'échantillons audio.

CONTINUER À LIRE:

Programme impressionnant d'intelligence artificielle qui recrée les visages à partir de l'audio

Comment activer le mode football sur une Smart TV pour regarder la Copa América

Modern Family est la vedette d'une publicité WhatsApp destinée aux familles équipées d'iPhone et d'Android

Glossaire technologique : quels types d'innovation existe-t-il

Tether : quel est le prix de cette cryptomonnaie ce 19 juin

Comment personnaliser WhatsApp avec le mode cœur noir