La technologie continue de croître à pas de géant, s'appuyant sur divers domaines pour explorer de nouvelles capacités et fonctionnalités. L'une d'entre elles est de pouvoir "reconstruire" le visage d'une personne à travers un fragment de voix.
L'étude Speech2Face présenté en 2019 lors d'une conférence sur la vision et la reconnaissance des formes a montré qu'une intelligence artificielle (IA) peut déchiffrer à quoi ressemble une personne à travers de courts segments audio.
Le document explique que l'objectif des chercheurs Tae-Hyun On, Tali Dekel, Changil Kim, Inbar Mosseri, William T. Freeman et Michael Rubinstein du MIT Science and Research Program n'est pas de reconstruire à l'identique les visages des personnes mais de faire une image avec les caractéristiques physiques liées à l'audio analysé.
Pour y parvenir, ils ont utilisé, conçu et formé un réseau neuronal profond qui a analysé des millions de vidéos prises sur YouTube où il y a des gens qui parlent. Au cours de la formation, le modèle a appris à corréler les voix avec les visages , ce qui lui a permis de produire des images avec des attributs physiques similaires aux locuteurs , notamment l'âge, le sexe et l'origine ethnique.
La formation a été réalisée sous supervision et en utilisant la conjonction de visages et de voix issus de vidéos Internet, sans qu'il soit nécessaire de modéliser les caractéristiques physiques détaillées du visage.
« Nos reconstructions, obtenues directement à partir de l'audio, révèlent les corrélations entre les visages et les voix. Nous évaluons et quantifions numériquement comment et de quelle manière nos reconstructions Speech2Face à partir de l'audio ressemblent à des images réelles des visages des locuteurs."
Ils ont détaillé que parce que cette étude pourrait avoir des aspects sensibles en raison de l'ethnicité, ainsi que de la vie privée, c'est qu'aucun aspect physique spécifique n'a été ajouté à la recréation des visages et ils assurent que, comme tout autre système d' apprentissage automatique , celui-ci s'améliore avec le temps, puisqu'à chaque utilisation il augmente sa bibliothèque de connaissances.
Alors que ses tests affichés montrent que Speech2Face a un nombre élevé de correspondances face à voix , il avait également quelques défauts, où il ne correspondait pas à l'origine ethnique, à l'âge ou au sexe avec l'échantillon de voix utilisé.
Le modèle est conçu pour présenter les corrélations statistiques qui existent entre les traits du visage et la voix . Il convient de rappeler que l'IA a appris des vidéos YouTube, qui ne représentent pas un échantillon réel de la population mondiale, par exemple, dans certaines langues, elle montre des écarts avec les données d'entraînement.
En ce sens, l'étude elle-même recommande, à la fin de ses résultats, que ceux qui décident d'explorer et de moderniser le système prennent en considération un échantillon plus large de personnes et de voix afin que l'apprentissage automatique dispose d'un répertoire plus large d'appariement et de recréation. visages
Le programme a également été en mesure de recréer la voix dans les dessins animés, qui présentent également une ressemblance incroyable avec les voix des audios analysés.
Parce que cette technologie pourrait également être utilisée à des fins malveillantes, la recréation du visage ne garde que la chose la plus proche de la personne et ne donne pas de visages complets, car cela pourrait être un problème pour la vie privée des personnes. Même ainsi, il a surpris ce que la technologie peut faire à partir d'échantillons audio.
CONTINUER À LIRE:
Avec l'effervescence de la Copa América, plusieurs fans recherchent la meilleure façon de regarder les matchs sur leur Smart TV. L’une des meilleures alternatives est le mode football ou le mode sport.
WhatsApp a réuni une partie du casting de Modern Family pour jouer dans une nouvelle publicité axée sur la promotion de groupes entre familles utilisant à la fois des appareils iPhone et Android.
Au cours des dernières décennies, la technologie est non seulement devenue un outil de base, mais elle fait également partie de notre vie quotidienne, au point qu’il est presque impossible d’imaginer ce que serait d’accomplir des tâches sans elle.
Tether, la cryptomonnaie de type stablecoin qui prétend que chacun de ses tokens est adossé à un dollar américain, est émise par la société Tether Limited et depuis ses origines a été impliquée dans diverses controverses.
Pour les utilisateurs de WhatsApp souhaitant personnaliser leur expérience, l’activation du « mode cœur noir » est une excellente option. Ce mode remplace l’icône d’appel téléphonique standard (qui est généralement blanche) par l’emoji cœur noir.