Understanding Behaviors Home - Services de la maison

Microsoft

Microsoft présente une IA capable d’imiter votre voix en seulement trois secondes

Les chercheurs de Microsoft ont dévoilé VALL-E, une intelligence artificielle capable de synthétiser la voix de n’importe quelle personne après l’avoir entendue pendant seulement trois secondes. Le résultat est aussi impressionnant qu’inquiétant.

En synthétisant la voix d’un humain après l’avoir entendu, l’IA de Microsoft peut « parler à sa place » tout en préservant la tonalité, les émotions et l’environnement sonore de la personne. Les créateurs de VALL-E restent cependant prudents.

Plus besoin de parler, l’IA le fait pour vous
Chez Microsoft, VALL-E est qualifié de « modèle de langage de codec neuronal ». L’IA est un modèle de synthèse vocale capable de générer des paroles. Cela n’a rien d’inédit, mais VALL-E se distingue par sa rapidité d’apprentissage – il lui suffit de trois secondes – et sa capacité à répliquer les émotions de la personne qui parle. Autre élément de différenciation de l’intelligence artificielle : créer un enregistrement de mots et de phrases que l’orateur n’a jamais prononcés.

Pour y parvenir, l’intelligence artificielle a été entraînée sur plus de 60 000 heures de données vocales en anglais prononcées par plus de 7 000 locuteurs lisant des livres audio gratuits du domaine public disponibles sur LibriVox.

Les extraits partagés par Microsoft sur Github sont divisés en quatre colonnes. La première, « Speaker Prompt », est l’audio de trois secondes que doit imiter VALL-E. Le deuxième, « Ground Truth », est un enregistrement préexistant du même locuteur afin de pouvoir le comparer. Le troisième, « Baseline », est un exemple de synthèse vocale conventionnelle. Enfin, « VALL-E » est l’extrait prononcé par l’IA de Microsoft.

On peut entendre des résultats assez variables. Certains ressemblent vraiment à une voix humaine, quand d’autres semblent clairement dictées par un robot. Ce n’est évidemment qu’un début dans la mesure où l’IA a tendance à s’améliorer avec le temps. Rappelons également que les échantillons de départ ne font que trois secondes. On imagine qu’avec plus de données, VALL-E serait en mesure de produire des résultats encore plus convaincants.

Microsoft ne veut pas se précipiter
Conscient des dérives que pourrait entraîner l’usage de VALL-E s’il tombait entre de mauvaises mains, Microsoft n’a pas partagé le code de son AI. Pour l’heure, il est donc impossible de tester l’intelligence artificielle soi-même. Microsoft conclut sa présentation avec ces mots :

« Étant donné que VALL-E pourrait synthétiser la parole qui fait l’identité d’un locuteur, il peut comprendre des risques d’utilisation abusive, tels que l’usurpation d’identification vocale ou l’usurpation d’identité d’un locuteur spécifique. Pour atténuer ces risques, il est possible de construire un modèle de détection afin de déterminer si un clip audio a été synthétisé par VALL-E. Nous mettrons également en pratique les principes de Microsoft AI en matière d’éthique lors du développement ultérieur des modèles. »

Après les usurpations d’identités grâce aux deepfakes et à la triche dans le milieu scolaire avec ChatGPT, Microsoft veut s’assurer de mettre en place des garde-fous avant de rendre son IA disponible plus largement.