Cinéma : comment les IA sont en train de doubler les doubleurs
Les métiers de l’industrie du cinéma, des séries TV et des jeux vidéo poursuivent leur mue avec l’intelligence artificielle. Mais certains professionnels commencent à craindre pour leur emploi. Outre les scénaristes, c’est tout particulièrement le cas… des doubleurs.
Pendant longtemps, le discours était le suivant : l’IA ne remplacera que les tâches à faible valeur ajoutée, mais jamais celles qui nécessitent une certaine réflexion créative. Désormais, avec la montée de l’IA générative, qu’elle concerne les images ou le texte, de nombreux métiers créatifs commencent toutefois à craindre pour leur emploi. Comme nous vous en parlions récemment, les scénaristes sont les premiers menacés par l’irruption de l’intelligence artificielle dans l’industrie cinématographique. Mais un autre métier commence à l’être également : celui de doubleur de voix.
L’IA générative ne s’arrête pas, en effet, aux images et aux textes. Les deep fakes ne permettent pas uniquement de remplacer des visages, ces techniques de synthèse multimédia reposant sur l’intelligence artificielle permettent aussi de superposer des fichiers audio existants sur d’autres fichiers audio. En parallèle, les voix synthétiques créées par l’IA en se basant sur les voix des véritables acteurs deviennent de plus en plus populaires.
Ces startups qui veulent disrupter le doublage
L’IA est en effet en train de s’immiscer sérieusement dans l’audio, la “dernière frontière” à franchir, en quelque sorte, avec des systèmes qui promettent aux producteurs de films, séries ou jeux vidéo, de doubler à peu de frais et efficacement quasiment n’importe quelle œuvre. Récemment, début 2023, le site britannique Sifted a publié un article sur la dernière levée de fonds d’ElevenLabs (2 millions de dollars auprès d’une société de capital-risque tchèque), une startup “spécialisée dans la technologie vocale d’IA”.
Cofondée par deux ingénieurs polonais, Mati Staniszewski et Piotr Dabkowski, elle a mis au point un un modèle de deep learning “pour la synthèse vocale”, capable de “convertir un texte en parole avec n’importe quelle voix et n’importe quelle émotion”. Elle ne fonctionne actuellement qu’en anglais et en polonais, mais marche tout autant sur des récits courts que longs. Selon Sifted, cette IA “pourrait donc être utilisée par des éditeurs de livres, des journalistes ou des créateurs de contenu”, et l’objectif de la startup est tout simplement d’imiter des voix humaines “dans n’importe quelle langue, instantanément, avec n’importe quelle voix, avec toute la gamme possible d’émotions et de tons de voix”. Parmi ses autres cibles : le cinéma et la télévision en direct.
ElevenLabs n’est qu’une “petite” startup (avec 250 clients pour le moment, tout de même). Mais son activité fait partie d’un véritable marché en devenir. Elle n’est, en effet, pas la seule à se vanter de pouvoir, grâce à l’IA, “cloner des voix existantes” à partir d’échantillons de quelques secondes. On compte d’autres startups spécialisées dans le domaine de “l’IA vocale” et du “text to speech synthesis” (TTS, ou “génération de parole à partir de texte”), comme l’ukrainienne Respeecher, la canadienne Resemble AI et l’américaine WellSaid Labs.
Respeecher développe depuis 2021 un service de “clonage vocal pour les créateurs de contenu”, qui permet selon elle de “créer des voix qui ne se distinguent pas de celles de l’orateur original”. Ce qui serait à nouveau “parfait pour les cinéastes et les développeurs de jeux.” De son côté, WellSaid Labs propose de “créer des voix off à partir de textes en temps réel”. Depuis 2018, cette société basée à Seattle développe une “technologie de synthèse vocale artistique” qui crée des “voix synthétiques réalistes à partir de la voix de personnes réelles”.
Mati Staniszewski, co-fondateur d’ElevenLabs, prêtent toutefois qu’aucun de ses concurrents directs n’est “capable de traiter des formes écrites longues” comme le fait sa startup. Ses vrais challengers sont, selon lui, les grosses entreprises de la tech, comme OpenAI, et les “scale-ups” (les startups qui grossissent) disposant d’importants départements de R&D. “On redoute surtout les sociétés qui se concentrent sur la recherche. Elles feront bientôt beaucoup de recherches sur la voix”, explique-t-il.
Il faut dire que les GAFAM ne sont pas en reste. Début 2023, des chercheurs de Microsoft (qui est en train d’investir 10 milliards de dollars dans OpenAI et qui commence à faire main basse sur ChatGPT pour Bing) ont annoncé la sortie d’un “nouvel outil capable de cloner la voix et le ton d’une personne à partir d’un extrait audio de trois secondes”.
Puis en mars, la firme de Redmond (pas loin de Seattle, où se situe ElevenLabs) a finalement dévoilé VALL-E, un modèle d’IA effectivement capable de générer un message audio avec votre voix, en partant de n’importe quel texte. Une innovation (encore au stade de projet de recherche) qui pourrait, pour certains experts en IA, offrir à terme un grand nombre d’opportunités dans l’audiovisuel. Elle pourrait “simplifier la production” d’oeuvres ou tout simplement “réduire les coûts”. Quand elle ne permettra pas de créer des deepfakes vocaux plus vrais que nature…
De son coté, Apple a récemment teasé le lancement d’un “nouveau projet de narration numérique” pour créer des livres audio. En janvier 2023, l’entreprise californienne a aussi lancé, discrètement, un catalogue de livres audio narrés par une intelligence artificielle. Alphabet n’a pas encore communiqué sur le sujet du TTS, mais les chercheurs de Google sont déjà à la pointe quand il s’agit de créer des synthèses vocales à partir de texte. Ils ont déjà développé une API via DeepMind qui “fournit des voix très proches des voix humaines”. Ce système permet notamment “d’entraîner un modèle de voix personnalisée à l’aide de vos propres enregistrements audio, afin de créer une voix unique et naturelle”.
Une menace pour les doubleurs ?
Cette dynamique en marche qui accompagne celle plus globale de l’IA générative devrait exploser ces prochaines années. Jusqu’à inquiéter sérieusement, pour revenir au coeur du sujet, les doubleurs de voix. D’autres entreprises vont encore plus loin en proposant carrément de faire le doublage de films entiers.
En 2021, la société israélienne Deepdub a traduit entièrement le film américain “Every Time I Die” de Robi Michael (2019) pour Netflix, en espagnol d’Amérique latine et en portugais brésilien grâce à une technologie de synthèse vocale à base d’IA. Des voix qui ressemblent à celles des acteurs originaux grâce à un système capable de “capturer avec précision le style vocal et les attributs vocaux des acteurs originaux”. Depuis, la “scale-up” de Tel Aviv assure sur son site “travailler avec les studios, les diffuseurs et les distributeurs”, à qui elle offre “un service complet de bout en bout pour tous leurs besoins – de la traduction et de l’adaptation, en passant par la création de dialogues, jusqu’au mixage final.”
Le doublage d’Every Time I Die par Deepdub n’a pas manqué d’inquiéter les doubleurs latino-américains qui défendent leur plus value à eux : ils sont dans leur microcosme des “célébrités à part entière” parce qu’ils vont souvent “au-delà du contenu scénarisé original”, en insérant des “boutades culturellement spécifiques”, explique le site Rest of World. Tandis que le producteur d’Every Time I Die affirme que “les distributeurs de films ne se soucient pas de savoir qui a fait le doublage, qu’il s’agisse d’un humain ou d’une machine”.
Rest of World constate par ailleurs que même dans les œuvres traduites grâce à l’IA, on trouve encore des humains. Ainsi, la série Obi-Wan Kenobi diffusée en 2022 sur Disney+ a eu recours aux services d’un acteur argentin pour sa version espagnole latino-américaine… tout en utilisant une voix générée par IA (via l’ukrainien Respeecher) pour recréer la voix originale du personnage de Dark Vador, celle de feu James Earl Jones.
Alors, l’IA remplacera-t-elle les doubleurs humains ? Oz Krakowski, directeur des revenus chez Deepdub, pense résolument que “lorsqu’il s’agira de doubler des succès hollywoodiens dans d’autres langues, les voix d’IA auront un avantage sur les acteurs humains”, car elles permettront “à un personnage interprété par une célébrité – par exemple, Morgan Freeman – de conserver sa voix originale tout en parlant parfaitement n’importe quelle langue avec n’importe quel accent et n’importe quel dialecte local”.
En parallèle, l’autre technologie qui fait parler d’elle actuellement consiste à mettre l’IA au service de la synchronisation labiale au cinéma. Couplé avec les systèmes de TTS, le résultat pourrait bien être fatal pour les comédiens voix-off. Après trois années de travail acharné, la firme britannique Flawless AI a ainsi conçu TrueSync, une IA capable de “synchroniser automatiquement les lèvres” des acteurs avec les paroles prononcées.
Doubleurs vs IA : et l’éthique, dans tout ça ?
“TrueSync est le premier système au monde qui utilise l’intelligence artificielle pour créer des image parfaitement synchronisées sur les lèvres dans plusieurs langues”, se vante Flawless AI sur son site. Pour “synchroniser” les lèvres des acteurs avec leur texte (quelle que soit la langue), TrueSync manipule en fait l’image avec des algorithmes et remplace les lèvres des acteurs par de “fausses lèvres” numériques. Pas besoin, donc, de modifier le texte pour le faire coller aux mouvements des lèvres des acteurs.
Un système qui permet aussi d’éviter toute désynchronisation entre l’audio et l’image. Selon Flawless, TrueSync diffère ici du doublage (humain) ou du sous-titrage, qui “dégradent le contenu par des changements de script et une perte de synchronisation”. Le but étant finalement de mettre fin au doublage humain au nom de “l’intégrité artistique” des acteurs.
Pour fonctionner, TrueSync “synthétise les visages des acteurs, les convertissant en un modèle 3D”. Un processus qui “crée des millions de modèles que l’intelligence artificielle utilise comme points de référence. Pour Flawless, l’objectif est de “faciliter le travail” des concepteurs de films et de séries. Mais quid, finalement, des doubleurs, des comédiens dont la principale valeur ajoutée est d’avoir suffisamment de talent pour coller au mieux avec le mouvement des lèvres des acteurs d’origine (et de jouer parfois mieux qu’eux) ?
Si l’on peut continuer d’y croire en se disant que de toute façon, jamais une IA ne sera au niveau d’un comédien humain, les studios et les distributeurs qui font appel à des sociétés comme Deepdub, Respeecher et Flawless AI, sont de plus en plus nombreux. Et c’est aussi le cas dans le monde du jeu vidéo, où certains doubleurs sont déjà encouragés comme le relève Motherboard à renoncer, lors de la signature d’un nouveau contrat, à leurs droits… pour que leur voix soit plus tard utilisée par l’IA.
Reste l’éternelle question de l’éthique. Pour Tech.eu, qui n’hésite pas à avancer que l’IA générative est en train de créer “le plus grand bouleversement que connaîtra la production cinématographique depuis 100 ans”, le pire n’est pas la mise au chômage des doubleurs. Le pire, c’est la possibilité, grâce à la synthèse vocale et au doublage par IA de modifier les paroles et de générer de nouveaux dialogues. Posant ainsi toutes les bases pour un révisionnisme dangereux.
Flawless AI propose déjà, en plus de son système de synchronisation labiale, de supprimer la vulgarité dans les films. Truesync a par exemple permis aux producteurs du film “Fall”, de Scott Mann (2022), de retirer tous les “F**” afin que le film soit classé “PG-13” aux Etats-Unis. Scott Mann aurait ainsi réussi à remplacer 30 mots prononcés par les deux actrices principales “en réenregistrant d’autres mots par-dessus en post production”, explique LaPresse+. Un processus qui n’a pris que 2 semaines de travail, sans nécessiter de longs reshoots coûtant des millions de dollars.
Le média québecois remarque par ailleurs qu’une autre frontière éthique a été franchie : celle de la mort. Outre la voix de James Earl Jones recréée par ordinateur pour Obi-Wan Kenobi, Netflix a ainsi diffusé en 2022 le documentaire The Andy Warhol Diaries, un documentaire qu’Andy Warhol narre lui-même, “malgré le fait qu’il soit mort depuis 36 ans”. Un travail réalisé par le canadien Resemble AI “sur une période de plusieurs mois”.