L'intelligence artificielle devient de plus en plus importante dans une grande variété d'activités liées à la production de contenu. Les IA qui créent des images basées sur l'audio ont été rejointes par celles qui créent de la vidéo , comme celle développée par Meta. Cependant, un a également été créé qui a la capacité de générer de l' audio à partir d'invites de texte.
Le nouveau programme a été créé par des chercheurs de Meta en collaboration avec l' Université hébraïque de Jérusalem dans le cadre d'un projet qui génère, à partir de zéro et avec uniquement des descriptions textuelles, des échantillons audio de quelques secondes. Un humble début pour un outil qui pourrait être utile à l'avenir.
Felix Kreuk, chercheur chez Meta , a publié une vidéo sur Twitter qui présentait le petit résultat de la création de cette Intelligence Artificielle qui a été mise à l'épreuve avec des indications telles que "sifflement avec le vent", "homme parlant à beaucoup de gens applaudissant en l'arrière-plan », « homme parlant suivi d'un autre homme parlant en arrière-plan tandis qu'un moteur de moto retentit » et « homme parlant tout en tapant sur un clavier ».
Selon la publication, AudioGen synthétise l'audio de manière conditionnelle sur un texte. "Il fonctionne sur des représentations discrètes tirées de la forme d'onde brute", a déclaré Kreuk. De plus, il a ajouté que cette intelligence artificielle "peut générer de l'audio conditionné au texte, continuer avec un message audio existant ou les deux".
Le chercheur du projet a également ajouté que les tests effectués avec l'intelligence artificielle incluent des mixages audio lors du traitement de l'information et que les textes guides sont utilisés sans classificateurs pour améliorer leur réponse.
Le document résultant de l' enquête de Meta et de l'Université hébraïque de Jérusalem indique que l'une des limites du modèle AudioGen actuel est que lors de la demande de l'audio d'un homme qui parle, le résultat est inintelligible et un seul mot ne peut être distingué. .
Une solution possible à cet inconvénient pourrait être l'utilisation de plus d' informations liées aux discours, augmentant la capacité de réception du mot ou par plus de fonctionnalités dirigées à cette fin.
Cependant, il a également la capacité de surmonter d'autres inconvénients générés par l'interaction avec l'audio, tels que la distinction de différents types de sons et leur séparation en différentes pistes audio (utile pour éditer l'audio avec des interférences ou beaucoup de bruit ambiant).
De plus, grâce à sa capacité à apprendre de l'expérience, l'intelligence artificielle de Meta et de l'Université hébraïque a déjà la capacité de générer de l'audio sans utiliser la base de données de formation qui lui a été donnée au début du processus de test, ce qui indique un amélioration progressive de leurs capacités, bien que les audios résultants des demandes basées sur le texte aient une durée de quelques secondes seulement.
Bien qu'AudioGen reste en phase de test, les chercheurs sont connus pour avoir utilisé "dix ensembles de données audio et balises correspondantes", ce qui signifie que l' Intelligence Artificielle continue d'apprendre en fonction de l'expérience, de sorte que les produits de son traitement ne peuvent que s'améliorer.
D'autre part, les personnes impliquées dans le projet ont l'intention de mettre l'Intelligence Artificielle à la disposition du public, ainsi que de diffuser le code de l'outil afin que d'autres personnes puissent effectuer des tests dessus.
CONTINUER À LIRE:
Avec l'effervescence de la Copa América, plusieurs fans recherchent la meilleure façon de regarder les matchs sur leur Smart TV. L’une des meilleures alternatives est le mode football ou le mode sport.
WhatsApp a réuni une partie du casting de Modern Family pour jouer dans une nouvelle publicité axée sur la promotion de groupes entre familles utilisant à la fois des appareils iPhone et Android.
Au cours des dernières décennies, la technologie est non seulement devenue un outil de base, mais elle fait également partie de notre vie quotidienne, au point qu’il est presque impossible d’imaginer ce que serait d’accomplir des tâches sans elle.
Tether, la cryptomonnaie de type stablecoin qui prétend que chacun de ses tokens est adossé à un dollar américain, est émise par la société Tether Limited et depuis ses origines a été impliquée dans diverses controverses.
Pour les utilisateurs de WhatsApp souhaitant personnaliser leur expérience, l’activation du « mode cœur noir » est une excellente option. Ce mode remplace l’icône d’appel téléphonique standard (qui est généralement blanche) par l’emoji cœur noir.