L’intelligence artificielle dans le monde de l’audiovisuel : Entretien avec Soundshape

.

L’intelligence artificielle dans le monde de l’audiovisuel avec Loïc Dubois - Sound Producer & AI Specialist at Soundshape et Tanguy Rowet - Multilingual production expert

Comment voyez-vous l'Intelligence Artificielle : une menace ou une opportunité ?

Tanguy Rowet : On ne voit pas l’IA comme une menace, mais plutôt comme une manière de travailler plus efficacement et de stimuler la créativité.L’IA ne va pas remplacer les humains, mais les humains qui utilisent l’IA vont remplacer ceux qui ne les utilisent pas”. C'est une bonne synthèse de notre vision : si une IA est utilisée sans l'intelligence humaine, le résultat n’est pas très concluant, à l’inverse, un humain qui n'utilise pas l'intelligence artificielle, est un manque d'opportunités. Au vu de l’état actuel de l’IA, c’est un outil qui est très puissant dans une phase d’idéation mais qui n’est pas encore assez abouti pour délivrer un résultat final qualitatif. L’humain reste donc encore central et nécessaire pour délivrer du contenu audiovisuel d’excellence.

Comment l'IA est-elle utilisée dans l'industrie audiovisuelle aujourd'hui et dans quels domaines spécifiques ?

Tanguy Rowet : On a constaté chez nos clients et chez les acteurs de l'industrie, différents niveaux de maturité par rapport à l'adoption de ces nouveaux outils. Ça dépend donc déjà à qui on s’adresse. Certains professionnels curieux ont déjà commencé à intégrer certains outils dans leur processus de production, alors que d'autres pas du tout.Concernant les différents domaines impactés, ils sont multiples car il existe des IA pour à peu près tous les besoins. Ils sont généralement catégorisés comme suit : Il y a les IA dites “text to text”, qui génèrent du texte en fonction de notre requête textuelle (comme chatGPT). Il y a aussi les IA text to image, qui génèrent des images selon le texte donné (comme Midjourney). Les IA “image to image” permettent de générer une image en fonction d’un dessin qu’on lui soumet (comme Nvidia Canvas). Les “image to video” (Comme Runway ou Kaiber), où on donne une image à l’IA pour qu’elle crée une vidéo. Les “text to video” (Comme Runway ou Kaiber), où on fournit du texte pour que l’IA génère une vidéo selon notre demande. Et enfin les IA “text to speech” qui permettent de générer des voix qui paraissent plus ou moins naturelles grâce à quelques lignes de texte (Comme ElevenLabs)

Ces différentes catégories permettent de voir que tous les métiers sont impactés, à la fois au niveau du son, de l'image et de la vidéo.

Quels avantages l'IA apporte-t-elle à l'industrie audiovisuelle ? Améliore-t-elle la création artistique et la production audiovisuelle ?  Y a-t-il des limites ? 

Loïc Dubois : L’IA apporte énormément d'avantages. C'est un générateur d'idées infini ! Je peux partir d'une idée et l’IA m'en ressort plein. Grâce à ça, je peux recréer constamment. En fait, ça permet aussi de faire un briefing très rapide, par exemple si tu as une idée de visuel : tu tapes ton idée et en deux minutes, tu as ton résultat ! Par contre, il y a certaines limites. Les IA sont très fortes dans ce qui est abstrait, créations de fiction, etc. Mais quand tu veux un rendu très réaliste pour ce qui est de l'image ou de la vidéo, ça devient un peu compliqué. Par exemple, l'IA a beaucoup de mal à reproduire des mains avec cinq doigts. À chaque fois, il y a soit beaucoup moins, soit beaucoup plus. C'est là où on voit qu'il y a encore des soucis et des limites.

"Je vois l’IA comme une boîte à idées sans limite. On démarre d’un concept, et elle nous en génère une multitude d’autres, sur lesquels on peut itérer. C'est aussi un gain de temps incroyable pour préparer des briefings détaillés. On formule une idée, et en quelques minutes, le résultat est visualisable. Cela rend très concret les discussions et les itérations avec les équipes ou les clients. 

Néanmoins, l’IA a encore ses limites. C’est un outil très performant pour de l'abstrait. Cependant, pour des rendus réalistes plus complexes, comme une main avec cinq doigts, l’IA est beaucoup moins convaincante. 

Je vois l’IA comme une boîte à idées sans limite. On démarre d’un concept, et elle nous en génère une multitude d’autres, sur lesquels on peut itérer.

Loïc Dubois

Utilisez-vous certains de ces outils chez Soundshape ?

Loïc Dubois : On utilise principalement ces outils pendant les phases d’idéation et parfois au niveau de la post-production pour des problématiques bien précises. 

Comme dit précédemment, on se sert de l’IA pour matérialiser rapidement des idées afin de pouvoir récolter des retours client concrets. Cela nous permet d’avoir un briefing très précis en amont. Ce qui nous permet de réduire le nombre d'allers-retours par la suite. 

On utilise aussi des outils plus techniques. Par exemple, il y a un outil qui s'appelle Adobe Enhanced Speech, et qui permet de nettoyer des voix de façon assez impressionnante. J'ai une formation d'ingénieur du son et l’outil génère un meilleur résultat que moi en 2h de travail. C'est assez bluffant. Par contre, il crée souvent des problèmes d’équilibrage. Je dois donc utiliser le résultat de l’IA et repasser dessus pour avoir un résultat vraiment parfait. 

On utilise également un éditeur de musique qui s'adapte automatiquement en fonction de la vidéo. On fournit une musique et une vidéo d'une certaine longueur, et l’outil réadapte la longueur de la musique tout en créant des transitions pour s’adapter au rythme de de la vidéo. Encore une fois, l’outil n’est pas parfait, mais il permet de gagner du temps en générant une base de travail déjà aboutie en peu de temps. 

Comment effectuez-vous votre veille théorique pour obtenir un aperçu des nouvelles tendances dans le domaine de l'IA appliquée à l'audiovisuel ?

Loïc Dubois :  Comme pour tout, il y a des noms qui sortent du lot et que tout le monde connaît comme ChatGPT ou Midjourney. Mais quand on creuse, on se rend compte de la multitude d’outils qui sortent presque quotidiennement. Pour se tenir au courant, on suit des newsletters, des chaînes YouTube spécialisées, ainsi que des serveurs Discord qui rassemblent une grande communauté d’enthousiastes. En plus de cela, il y a aussi Futuretools.io qui recense tous les outils IA disponibles par catégorie. Très pratique pour chercher une solution quand tu as un besoin spécifique. 

Dès qu’on voit passer quelque chose de nouveau, on teste et on essaie de voir comment cet outil pourrait s’intégrer dans une chaîne de production. Il faut également se tenir au courant des mises à jour des outils existants. La vitesse d’évolution de ces solutions est impressionnante. 

L'IA pourrait-elle remplacer certaines professions dans l'industrie audiovisuelle ?

Tanguy Rowet : À l'heure actuelle, non !  Bien que tous les métiers de l’audiovisuel soient impactés par l’IA, ils ne vont pas être remplacés. Depuis le début chez SoundShape, notre objectif a toujours été d’automatiser les tâches qui ne créent pas de valeur ajoutée afin de dégager du temps “créatif” aux équipes. Selon nous, l’IA ne fait que mettre en exergue cette vision. Dans tous les métiers de l’audiovisuel, il y a des tâches répétitives voire frustrantes. Typiquement pour un ingénieur du son, recevoir des fichiers, les télécharger, préparer sa session, vérifier que tout est ok. Tout ceci prend du temps sans vraiment créer de la valeur pour le client. L’IA combinée à un peu de code permet de faire tout cela à la place du technicien. Grâce à cela, on dégage du temps pour que les équipes puissent se concentrer sur des tâches à haute valeur ajoutée. 

L’IA peut également aider sur des tâches plus complexes ou créatives mais uniquement quand elle est combinée avec l’intelligence humaine. C’est ce qui nous fait dire que l'humain est encore loin de disparaître dans nos métiers. 

Tanguy Rowet

Quelles tendances émergentes de l'IA dans l'audiovisuel faut-il anticiper ? Quels développements ou applications futures pouvez-vous envisager ?

Loïc Dubois : Si on dézoome sur une ligne du temps, on est vraiment au tout début du développement des intelligences artificielles. Pour l’instant, c'est la génération d'images qui est la plus aboutie, le “text to image”. Mais je pense que la prochaine révolution concernera la vidéo. Cette technologie est encore loin d’être exploitable. Cependant, des acteurs importants comme Méta et Google débarquent sur le sujet. Il y a également Adobe qui promet également pas mal de changements avec le développement de Firefly. 

Est-ce que Soundshape organise des événements spécifiques, des ateliers ou des sessions d'information pour sensibiliser activement les professionnel.le.s de l'audiovisuel à l'intelligence artificielle ?

Tanguy Rowet : A la base, la formation aux nouvelles technologies ne fait pas partie de notre offre. On se concentre plutôt sur la production de contenu audiovisuel complexe, tels que les projets multilingues pour les institutions européennes. Cependant, suite à une présentation sur le sujet de l’IA réalisée lors du Spot Festival d’Arcachon, nous avons reçu énormément de demandes pour venir éduquer des équipes sur le sujet. Pour répondre à cette demande, nous avons développé un workshop de 1-2 jours qui permet de rendre les équipes autonomes sur les différents outils IA intéressants pour nos métiers. 

Quels conseils souhaitez-vous donner aux professionnel.le.s de l'audiovisuel souhaitant exploiter l'IA dans leur travail ?

Loïc Dubois : De s’y intéresser de très près. Et de ne pas uniquement regarder du contenu passivement sur le sujet. Le meilleur moyen de maîtriser ces outils est de les utiliser pour des problématiques concrètes. Et de continuellement se poser la question de comment cet outil pourrait s”intégrer des mes processus de production afin d’apporter plus de valeur à mes clients ou de simplifier la vie à mes équipes. Ça aide à se rendre compte de la puissance et de l’utilité de chaque outil. Je pense que la révolution de l’IA est similaire à celle du numérique. Tôt ou tard il faudra s’adapter. Autant commencer dès aujourd’hui. 

Tanguy Rowet : C'est plus un sujet qui nous passionne ! On adore partager des connaissances et on est hyper ouverts à échanger avec des acteurs de l’industrie. Si vous voulez en discuter, n’hésitez pas à nous contacter à tanguy@soundshape.io

© Soundshape
French Fries ©Soundshape

Cela pourrait vous intéresser