10 octobre 2022 17:49:10 IST
Quelques jours seulement après que Meta a annoncé son générateur de texte en vidéo, Google a annoncé qu’il était presque prêt à annoncer son propre générateur de texte en vidéo alimenté par l’IA, qu’ils appellent Google Imagen Video.
Le générateur est encore dans sa phase de développement, mais au moment où il atteindra un état de diffusion publique, il sera capable de produire des vidéos 1280 × 768 à 24 images par seconde à partir d’une invite écrite de base.
Selon le document de recherche de Google, Imagen Video aura des capacités stylistiques, telles que la génération de vidéos basées sur le travail d’artistes célèbres comme Vincent van Gough. Il générera également des objets rotatifs 3D tout en préservant leur structure et en rendant le texte dans divers styles d’animation.
La nouvelle Imagen Video Al de Google transforme les descriptions textuelles en vidéos haute résolution de 5,3 secondes??? pic.twitter.com/KhvsvGqLFh
— Tansu YEĞEN (@TansuYegen) 8 octobre 2022
Google indique qu’Imagen Video a été formé sur 14 millions de paires vidéo-texte et 60 millions de paires image-texte ainsi que sur l’ensemble de données image-texte LAION qui a été utilisé pour former Stable Diffusion.
Google espère que son modèle vidéo IA pourra « réduire considérablement la difficulté de génération de contenu de haute qualité ». Imagen Video s’appuie sur Imagen de Google, un programme de conversion de texte en image similaire à DALL-E d’OpenAI.
Comme décrit par le professeur de recherche de Google, Imagen Video prendra une description textuelle et générera une vidéo de 16 images, trois images par seconde à une résolution de 24 × 48 pixels. Le système met ensuite à l’échelle et «prédit» des images supplémentaires, produisant une vidéo finale de 128 images, 24 images par seconde à 720p.
Incroyable vidéo générée par l’IA à partir de @Googleimage de la vidéo pic.twitter.com/ZRpkAoAKsd
—Simon Geisker (@simonfilm_nyc) 6 octobre 2022
Il convient de noter que tous les résultats d’Imagen Video sont sélectionnés par Google lui-même et qu’aucun testeur indépendant n’a encore essayé le programme.
Cela dit, le document de recherche affirme qu’Imagen Video peut restituer correctement le texte, ce avec quoi DALL-E et Stable Diffusion ont du mal. Le texte généré par ces programmes est à peine lisible.
Il affirme également qu’Imagen Video a démontré une compréhension de la profondeur et de la tridimensionnalité, permettant de créer des vidéos de survol de drones qui tournent et capturent des objets sous différents angles sans distorsion.
Google a exprimé ses inquiétudes concernant les « données problématiques » utilisées pour former ses programmes de génération d’images AI. La société a tenté de filtrer les contenus sexuellement explicites ou violents, ainsi que les stéréotypes sociaux et les préjugés culturels. Il craint que l’outil ne soit utilisé « pour générer, faux, contenu haineux, explicite ou préjudiciable ».
« Nous avons décidé de ne pas publier le modèle Imagen Video ou son code source tant que ces préoccupations ne seront pas atténuées », ajoute Google.
45secondes est un nouveau média, n’hésitez pas à partager notre article sur les réseaux sociaux afin de nous donner un solide coup de pouce. ?