Comment générer des sons à partir de texte en utilisant l'intelligence artificielle

Publié le 06.10.2022

Une équipe de chercheurs de Meta et de l'Université hébraïque de Jérusalem travaille au développement d'une IA qui génère de l'audio à partir de descriptions textuelles. (Pawel Czerwinski, Unsplash)

L'intelligence artificielle devient de plus en plus importante dans une grande variété d'activités liées à la production de contenu. Les IA qui créent des images basées sur l'audio ont été rejointes par celles qui créent de la vidéo , comme celle développée par Meta. Cependant, un a également été créé qui a la capacité de générer de l' audio à partir d'invites de texte.

Le nouveau programme a été créé par des chercheurs de Meta en collaboration avec l' Université hébraïque de Jérusalem dans le cadre d'un projet qui génère, à partir de zéro et avec uniquement des descriptions textuelles, des échantillons audio de quelques secondes. Un humble début pour un outil qui pourrait être utile à l'avenir.

Felix Kreuk, chercheur chez Meta , a publié une vidéo sur Twitter qui présentait le petit résultat de la création de cette Intelligence Artificielle qui a été mise à l'épreuve avec des indications telles que "sifflement avec le vent", "homme parlant à beaucoup de gens applaudissant en l'arrière-plan », « homme parlant suivi d'un autre homme parlant en arrière-plan tandis qu'un moteur de moto retentit » et « homme parlant tout en tapant sur un clavier ».

Selon la publication, AudioGen synthétise l'audio de manière conditionnelle sur un texte. "Il fonctionne sur des représentations discrètes tirées de la forme d'onde brute", a déclaré Kreuk. De plus, il a ajouté que cette intelligence artificielle "peut générer de l'audio conditionné au texte, continuer avec un message audio existant ou les deux".

Le chercheur du projet a également ajouté que les tests effectués avec l'intelligence artificielle incluent des mixages audio lors du traitement de l'information et que les textes guides sont utilisés sans classificateurs pour améliorer leur réponse.

Le document résultant de l' enquête de Meta et de l'Université hébraïque de Jérusalem indique que l'une des limites du modèle AudioGen actuel est que lors de la demande de l'audio d'un homme qui parle, le résultat est inintelligible et un seul mot ne peut être distingué. .

Une solution possible à cet inconvénient pourrait être l'utilisation de plus d' informations liées aux discours, augmentant la capacité de réception du mot ou par plus de fonctionnalités dirigées à cette fin.

Illustration de l'intelligence artificielle. (photo : Unocero)

Cependant, il a également la capacité de surmonter d'autres inconvénients générés par l'interaction avec l'audio, tels que la distinction de différents types de sons et leur séparation en différentes pistes audio (utile pour éditer l'audio avec des interférences ou beaucoup de bruit ambiant).

De plus, grâce à sa capacité à apprendre de l'expérience, l'intelligence artificielle de Meta et de l'Université hébraïque a déjà la capacité de générer de l'audio sans utiliser la base de données de formation qui lui a été donnée au début du processus de test, ce qui indique un amélioration progressive de leurs capacités, bien que les audios résultants des demandes basées sur le texte aient une durée de quelques secondes seulement.

Bien qu'AudioGen reste en phase de test, les chercheurs sont connus pour avoir utilisé "dix ensembles de données audio et balises correspondantes", ce qui signifie que l' Intelligence Artificielle continue d'apprendre en fonction de l'expérience, de sorte que les produits de son traitement ne peuvent que s'améliorer.

D'autre part, les personnes impliquées dans le projet ont l'intention de mettre l'Intelligence Artificielle à la disposition du public, ainsi que de diffuser le code de l'outil afin que d'autres personnes puissent effectuer des tests dessus.

CONTINUER À LIRE:

Comment générer des sons à partir de texte en utilisant l'intelligence artificielle

Comment activer le mode football sur une Smart TV pour regarder la Copa América

Modern Family est la vedette d'une publicité WhatsApp destinée aux familles équipées d'iPhone et d'Android

Glossaire technologique : quels types d'innovation existe-t-il

Tether : quel est le prix de cette cryptomonnaie ce 19 juin

Comment personnaliser WhatsApp avec le mode cœur noir