Understanding Behaviors Home - Services de la maison

Meta dévoile son modèle de synthèse vocale Voicebox AI !

En dehors de son ambitieux programme de développement du Metavers, Meta s’investit pleinement dans la course à l’IA générative. Dans ce cadre, la firme technologique américaine a notamment dévoilé cette semaine sa nouvelle application Voicebox AI pour immortaliser les voix des célébrités. Avec cet outil, elle promet de la parole ce que ChatGPT et Dall-E ont respectueusement fait de la génération de texte et d’image.

Générer des clips audios pour les utilisateurs
Voicebox AI est un générateur de texte en sortie, tout comme ChatGPT ou Dall-E. Ce qui marque toutefois la différence, c’est qu’il produit, en lieu et place des images ou du texte, des clips audios pour les utilisateurs. Pour Meta, il s’agit d’un « modèle d’adaptation de flux non autorégressif formé pour remplir la parole, compte tenu du contexte audio et du texte. ». Voicebox AI a été entraîné sur plus de 50 000 heures d’écoutes non filtrées dans plusieurs langues.

La firme Meta indique que dans le cadre du développement de cet outil IA, elle a utilisé des discours enregistrés. Elle s’est aussi basée sur des transcriptions de plusieurs livres audios du domaine public écrit en anglais, français, portugais, polonais, espagnol et allemand. Selon les chercheurs de Meta, cet ensemble de données diversifié permet au système de générer un discours plus conversationnel, quelles que soient les langues parlées.

C’est d’ailleurs pour cette raison qu’ils affirment : « Nos résultats montrent que les modèles de reconnaissance vocale formés sur la parole synthétique générée par Voicebox AI fonctionnent presque aussi bien que les modèles formés sur la parole réelle. » En outre, il convient de souligner que la parole générée par ordinateur s’est produite avec une dégradation du taux d’erreur de seulement 1 %. En comparaison, avec les modèles TTS existants, on observe une baisse de 45 à 70 %.

Une application aux multiples fonctionnalités
Pour rendre son IA très efficace, Meta a entraîné Voicebox AI à prédire des segments de parole avec des exercices spécifiques. Ces derniers sont réalisés en fonction des segments qui les entourent et des transcriptions de passage. L’objectif selon les développeurs de la société est d’aider l’outil à « l’appliquer à toutes les tâches de génération de la parole, y compris la génération des parties au milieu d’un enregistrement audio sans avoir à recréer l’intégralité de l’entrée. »

En plus de ceci, Voicebox AI serait capable d’éditer activement des clips audios, d’éliminer le bruit du discours et de remplacer les mots mal prononcés. Pour arriver à cet exploit, Meta exploite une nouvelle méthode d’entraînement de synthèse vocale baptisée Flow Matching. Les résultats de référence montrent de cette dernière surpasse l’état actuel de la technique à la fois en intelligibilité et en similarité audio. Elle affiche un taux d’erreur de mot de 1,9 % et un score composite de 0,681.

Notez toutefois que ni l’application Voicebox AI, ni son code source ne sont rendus public pour le moment. Meta souhaite en effet éviter les risques potentiels d’utilisation abusive nonobstant les nombreux cas d’utilisation passionnante. En lieu et place, la firme américaine a publié une série d’exemples audio et un document de recherche initial du programme. L’équipe de recherche espère néanmoins qu’à l’avenir Voicebox AI sera déployé dans les prothèses et les assistants numériques.