Découvrez SORA : la nouvelle intelligence artificielle d’openAI qui converti du texte en vidéo

Freelance Hibis février 20, 2024

0 80 3 minutes de lecture

À peine dévoilée, Sora, l’IA générative de vidéos créée par OpenAI, suscite autant de fascination que d’inquiétude. Certains lui attribuent déjà un potentiel considérable dans la propagation de la désinformation.

Il y a quelques jours, OpenAI a une fois de plus démontré son avance significative dans le domaine de l’IA. Après l’essor de ChatGPT, allons-nous assister à une nouvelle révolution provoquée par Sora, leur nouveau système d’IA capable de transformer des descriptions textuelles en vidéos ? En cette année 2024, marquée par de nombreuses élections à travers le monde, l’utilisation d’un outil aussi puissant que Sora pour la création de deepfakes est une possibilité à prendre au sérieux.

Parfois, des outils émergent de manière inattendue et l’on pressent qu’ils vont révolutionner le domaine. Sora, le générateur de vidéos par l’IA d’OpenAI, en est un exemple flagrant. C’est ainsi que, deux jours seulement après l’annonce de la sortie de Sora, un dimanche, nous nous retrouvons à rédiger un article sur le sujet, cherchant à être parmi les premiers à décrypter cette révolution du texte vers la vidéo.

Vous pourriez penser que nous en faisons un peu trop ? Nous verrons dans six mois, lorsque Sora sera (une fois de plus) plus célèbre que ChatGPT. Aujourd’hui, nous explorons donc en profondeur le sujet de Sora afin de répondre à quelques questions.

C’est quoi SORA ?

Sora, développé par OpenAI (à qui l’on doit déjà ChatGPT et DALL-E), est un outil de conversion des textes en vidéo lancé le 16 février 2024. Il permet de créer des vidéos d’une durée maximale d’une minute à partir d’un simple texte appelé « prompt ». Sora était très attendu, car la génération de vidéos par l’IA était jusqu’alors de qualité médiocre, contrairement à celle de textes et d’images. Mais avec l’arrivée de Sora, cette situation a changé. Sora est capable de produire des scènes complexes, mettant en scène plusieurs personnages et des détails précis concernant le sujet de la vidéo et l’arrière-plan.

Ce qui distingue le modèle derrière Sora de ses concurrents, c’est sa puissance : il comprend non seulement ce que l’utilisateur demande dans le prompt, mais aussi comment ces éléments existent dans le monde physique.

Rien de tel que des exemples pour illustrer nos propos !

Voici une vidéo générée par SORA à partir d’un simple texte

Sora : La fin de quelques métiers en vue

Les vidéos produites par Sora, bien que perfectibles, sont déjà impressionnantes. Là où des animateurs, des artistes VFX ou des designers de mouvement auraient auparavant passé des heures à travailler, Sora est capable de générer rapidement des vidéos de 60 secondes à partir d’une simple phrase. C’est une avancée technologique considérable. Pour Rachel Tobac, co-fondatrice de SocialProof Security, l’écart entre les capacités de ce nouvel outil et ce qui était réalisé autrefois en termes de crédibilité est immense.

Pour parvenir à un tel résultat, Sora combine deux technologies d’IA. Tout d’abord, elle se base sur des modèles de génération, comme DALL-E, qui lui permettent de transformer des pixels aléatoires en images nettes. Ensuite, elle utilise une autre technologie appelée « architecture transformante« , qui organise ces images en séquences cohérentes.

Dotées de capacités impressionnantes, ces avancées suscitent déjà l’inquiétude. Hany Farid, de l’Université de Californie à Berkeley, explique : « Comme pour d’autres méthodes en IA générative, rien n’indique que la conversion de texte en vidéo ne va pas continuer à s’améliorer rapidement, nous rapprochant toujours plus d’une époque où il sera difficile de différencier le faux du vrai ». Il poursuit : « Cette technologie, si elle est associée au clonage vocal alimenté par l’IA, pourrait ouvrir un tout nouveau champ de possibilités dans la création de deepfakes montrant des personnes dire et faire des choses qui ne se sont jamais produites ».

Pour l’instant, OpenAI n’a pas rendu Sora publiquement accessible. Le modèle est actuellement en phase de test pour évaluer son potentiel de mauvaise utilisation. Selon un porte-parole d’OpenAI, le groupe chargé de cette analyse est composé d’« experts dans des domaines tels que la désinformation, le contenu haineux et les biais ».

SORA

Vers un renforcement du cadre réglementaire

L’impact potentiel d’un outil aussi puissant que Sora sur la diffusion d’informations erronées est tangible. Les vidéos générées, même si elles sont perfectibles, représentent une avancée technologique sans précédent. Il est important de rappeler que Sora n’en est qu’à ses débuts et qu’il pourrait évoluer aussi rapidement que Midjourney l’a fait. Il est fort probable qu’un jour, ces vidéos deviennent indiscernables de la réalité.

Comment pouvons-nous éviter ce scénario ? Cela peut sembler idéaliste, mais en dehors d’une étroite collaboration entre les gouvernements, les entreprises spécialisées en IA et les plateformes de médias sociaux, il y a peu d’options. Des mécanismes tels que les « watermarks » (filigranes attestant qu’un contenu a été généré par une IA) pourraient également être envisagés. Cependant, compte tenu de l’ampleur du défi, cela sera-t-il suffisant ?