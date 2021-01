OpenAI, l’une des entités qui fait actuellement le plus de progrès dans le domaine de l’intelligence artificielle, dispose de deux nouvelles IA. DALL-E et CLIP sont capable de trouver des associations entre les concepts visuels et textuels à partir de milliards de paramètres GPT-3. Résultat? Nous lui demandons une chambre avec un lit blanc et un aquarium et il crée plusieurs images avec une chambre avec un lit blanc et un aquarium, comme vous pouvez le voir sur l’image suivante.





OpenAI a annoncé la création de deux systèmes d’intelligence artificielle multimodaux. Dans les deux cas, une meilleure association entre les concepts visuels et les concepts textuels est recherchée. D’une part, nous avons DALL-E, qui est capable de générer des images à partir d’une description textuelle. D’autre part, il y a CLIP, une intelligence artificielle capable de reconnaître visuellement les images et de les catégoriser instantanément.

Les deux intelligences artificielles exploiter la puissance de GPT-3, le modèle de langage OpenAI présenté en 2020 et qui en a surpris beaucoup. GPT-3 est capable de générer des designs, de parler et de débattre ou de programmer comme nous avons pu le voir dans une multitude d’exemples qui sont sortis.

« Créez une image d’une noix fendue en deux »

DALL-E est le premier de ces systèmes d’intelligence artificielle multimodaux. Son objectif n’est autre que générer des images à partir de zéro en fonction d’une description donnée. Selon OpenAI, il utilise une version de 12 milliards de paramètres de GPT-3 pour cela. Cela vous permet de créer différentes versions de ce qui vous est demandé avec une précision étonnante à de nombreuses reprises.

Ce qui est intéressant ici, c’est qu’il est capable de générer des images de concepts qui existent et d’autres qui n’existent pas aussi. Par exemple, si on vous demande de créer une image d’une noix, divisée en deux, vous le faites parce que vous savez à quoi ressemble une noix, divisée en deux. Cependant, vous pouvez également créer une horloge verte en forme de pentagone ou d’escargot qui est également une harpe.

Les images évidemment ils n’ont pas la qualité d’une vraie photo. Cependant, dans des objets simples et bien définis, la qualité peut être étonnante et le fait qu’il n’existe pas vraiment peut passer inaperçu. Un exemple de ceci est « une bouilloire avec la même bouilloire en dessous et le texte GPT »:

Comprendre ce qu’il y a dans une image

CLIP, quant à lui, est destiné à réaliser un processus presque opposé. Parce qu’il a été formé avec 400 millions de parties d’images et de texte provenant d’Internet, il est capable de reconnaître instantanément à quelle catégorie les images qui vous sont présentées appartiennent. Le système reconnaît les objets, les personnages, les lieux, les activités, les sujets, etc.

Avec ceci à CLIP on peut vous donner une image pour la décrire de la meilleure façon possible. L’IA renvoie une série de descriptions indiquant combien de pour cent en sont sûrs.

Bien que CLIP puisse être extrêmement compétent pour classer certaines images, il ne convient pas à d’autres. Par exemple, il n’a aucun problème à reconnaître un avion ou un studio de télévision, mais il ne comprend pas très bien quand il s’agit d’une image satellite ou d’un lynx sur le terrain.

