〉Qu'est-ce que DALL-E: transformation de texte en images ?

Qu'est-ce que DALL-E ?

Entraîné par un réseau neuronal et capable de prendre des légendes de texte en entrée, DALL-E génère les images correspondantes.

En d'autres termes, cet outil artistique de l'IA (intelligence artificielle) transforme le texte en images.

DALL-E d'Openai est une réalisation importante pour générer des images à partir de descriptions textuelles.

Il peut générer une grande variété d'images, de versions anthropomorphisées d'animaux et d'objets aux images surréalistes et aux créations inédites.
Les algorithmes de DALL-E ont appris à transposer les concepts en représentations visuelles grâce à l'entraînement sur un grand ensemble de données de textes et d'images (jusqu'à une résolution de 1024×1024).
Les applications de DALL-E sont infinies, allant de la création d'images pour les médias sociaux à la conception de produits en passant par la création de nouveaux univers pour les jeux vidéo et les films.

1. Histoire d'OpenAI

Avant de créer des concepts innovants de machine learning "texte-image" grâce à DALL-E, l'entreprise a commencé par être un générateur de texte, plus précisément un processeur de langage.

En 2019, OpenAI avait initialement créé un modèle appelé GPT-2 qui pouvait prédire le mot suivant dans un texte. Il comptait 1,5 milliard de paramètres et avait été entraîné sur 8 millions de pages web pour produire son ensemble de données.

L'objectif était de prédire le mot suivant, comme le ferait un générateur de texte:

"Pour les tâches linguistiques telles que la réponse aux questions, la compréhension de la lecture, le résumé et la traduction, GPT-3 commence à apprendre ces tâches à partir du texte brut, sans utiliser de données d'entraînement spécifiques", a déclaré OpenAI.

Son successeur, le modèle GPT-3 (puis GPT-4 en 2023), deviendrait le modèle préliminaire de DALL-E, modifié pour générer des images au lieu de texte supplémentaire.

2. Technologie passée

Les réseaux adversariens génératifs (GAN) étaient autrefois la meilleure méthode pour créer des images à partir d'une description (prompt).

Cependant, les GANs ont plusieurs limites.

ils nécessitent beaucoup de données pour fonctionner correctement.
ils ont également tendance à produire des images de faible qualité et manquant de détails.

Alors que le GAN existait depuis un certain temps, beaucoup pensent que la sortie de DALL-E a marqué la fin du règne du GAN :

Plus efficace que les GAN,
Peut générer des images réalistes de bien meilleure qualité et en une fraction du temps.

3. DALL-e mini

En plus du modèle complet de DALL-E AI, OpenAI a également publié une version miniature appelée DALL-E mini disponible via le navigateur web.

Malgré ses capacités réduites, DALL-E mini créer des images générées de haute qualité.

DALL-E mini de Craiyon.com est plus accessible à ceux qui n'ont pas accès à de grandes quantités de ressources informatiques.

DALL-E mini est également une version open-source et disponible pour tous.

Comment DALL-E fonctionne ?

Il peut générer des images via le navigateur web des images sur la base des mots fournis par les créateurs et les artistes, même dans le cas des descriptions les plus uniques et inhabituelles.

Comment produit-elle l'art ?

Elle utilise l'algorithme contenu dans les mots et les place dans une série de vecteurs ou d'incorporations texte-image.
Ensuite, l'IA (intelligence artificielle) créé une image originale à partir de la représentation générique qui lui a été présentée dans ses ensembles de données, sur la base du texte ajouté par l'utilisateur qui crée l'œuvre. Il peut "prendre n'importe quel texte et en faire une image", a déclaré Ilya Sutskever, cofondateur et scientifique en chef d'OpenAI.

L'IA (intelligence artificielle) peut également ajouter de manière appropriée de légers détails, comme des ombres et des reflets, pour donner aux images un aspect encore plus réaliste.

Fonctionnalités

DALL-E peut modifier plusieurs des attributs d'un objet.

Il crée des résultats uniques à partir de la description textuelle, contrôlant la taille, la forme, la couleur et la fréquence des objets.

La plateforme est capable de créer des scènes entières et de former des relations entre les objets.

1. 3D

DALL-E ne se limite pas aux images bidimensionnelles (en 2D) mais est capable de générer des modèles 3D d'objets sous différents angles.

DALL-E - Images 3D sam altman — *images générées* : *https://openai.com/*

2. Sémantiques des mots "non prononcés"

Les mots qu'une personne utilise pour décrire un objet contiennent rarement toutes les informations nécessaires pour générer une image précise.

Il peut prendre en compte les mots qui ne sont pas écrits mais qui restent implicites.
Alors que les moteurs de rendu 3D seraient capables de s'en approcher après plusieurs tentatives, le fait qu'il ne soit pas nécessaire de spécifier explicitement chaque détail est une démonstration puissante de ce dont l'intelligence artificielle peut être capable.

3. Réel vs Imaginaire

La possibilité de synthétiser des objets et des scènes qui semblent identiques au monde réel ouvre un tout nouvel éventail de possibilités pour ce qui peut être créé.

DALL-E donne quelques exemples de cette situation :

prendre des qualités associées à des objets aléatoires et les transférer à des animaux
l'établissement de liens qui n'ont jamais été établis auparavant grâce à une inspiration sans rapport avec le sujet traité

Par exemple, le prompt "un escargot avec la texture d'une harpe", donne lieu à une image qui mélange le monde réel et l'imagination.

Le résultat n'est pas quelque chose qui existe dans le monde réel, mais il peut donner des résultats intéressants.

4. Repères géographiques et spatiaux

Il semble avoir une bonne connaissance des détails géographiques, des points de repère et des communautés.

Considérez un texte comme :

une photo de la nourriture en chine

Ces prompts permettent à DALL-E de générer des images assez précises, représentatives de la réalité.

Différence entre DALL-E et DALL-E 2

DALL-E 2 disponible sur le site web d'OpenAI depuis avril 2022.

La différence réside dans le nombre de paramètres, ce qui permet à DALL-E 2 de créer des images encore meilleures que celles de DALL-E.

Cela se fait en générant des images de plus haute résolution :

DALL-E utilise 12 milliards de paramètres, tandis que
DALL-E 2 travaille sur 3,5 milliards de paramètres, avec 1,5 milliard de paramètres supplémentaires pour améliorer la résolution.

Différence entre photograph DALL-E et DALL-E 2 realistic — *Entrée : une peinture d'un renard assis dans un champ au lever du soleil dans le style de Claude Monet.* *DALL-E (gauche) et DALL-E 2 (droite)/OpenAI*

Dall·e 2 crée des images de plus haute résolution, bien que plus petites que son prédécesseur.

DALL-e 2 a également "appris la relation entre les images et le texte utilisé pour les décrire dans un processus également connu sous le nom de diffusion".
Dans cette méthode, il y a généralement un motif de points qui se modifie progressivement vers une image lorsqu'il reconnaît des aspects de cette image.
DALL-E 2 peut étendre les images au-delà de ce qui se trouve dans la photo originale, ce que l'on appelle l'outpainting, créant ainsi de nouvelles compositions à partir d'anciennes images.
Sa résolution est 4x supérieure à celle de DALL-E.

Globalement, DALL-E 2 est plus polyvalent et produit des images plus réalistes et plus précises que son précurseur.

Qu'est-ce que DALL-E 2 ?

Le 28 septembre 2022, DALL-E 2 a été officiellement ouvert au public.

DALL-E 2 - Accueil styles — Page d'accueil DALL-E 2

La nouvelle version s'accompagne de plusieurs nouvelles fonctionnalités et améliorations, dont la plus notable concerne les ensembles de données d'entraînement utilisés pour former l'intelligence artificielle.

En termes de tarification, en juillet 2022, le site web d'OpenAI a commencé à facturer des crédits pour la génération d'art sur la plateforme DALLE-2 après deux mois d'utilisation gratuite:

Pour commencer, tous les utilisateurs reçoivent un bonus de crédit gratuit.
Après cela, ils reçoivent 15 crédits gratuits chaque mois.
Pour ceux qui en veulent plus, ils peuvent acheter 15 dollars pour 115 crédits, ce qui devrait techniquement permettre de générer jusqu'à 450+ images de DALL-E.

Outpainting

En août 2022, OpenAI a introduit dans DALL-E 2 une nouvelle fonction unique appelée outpainting, qui permet aux utilisateurs de continuer à créer une image au-delà des limites originales, en donnant une nouvelle direction aux éléments visuels, simplement par le biais d'une description en langage naturel.

Cette nouvelle fonction constitue un bel équilibre avec la précédente fonction d'édition d'OpenAI dans DALL-E, appelée inpainting, qui permet aux utilisateurs de modifier une image générée.

La nouvelle fonctionnalité permet aux créateurs de créer des images à grande échelle en ajoutant l'extension.

Grâce à ce nouveau procédé, les développeurs d'AI comprennent mieux les différentes forces et capacités de DALL-E.

Inscription

Vous pouvez compléter l'inscription à DALL-E 2 en créant un compte sur le site d'Open AI avec une adresse mail :

Il vous sera demandé de saisir votre adresse email et un code de sécurité et de créer un mot de passe à huit chiffres.
Vous pouvez également créer un compte en utilisant le SSO de sites comme Google ou Microsoft.

Cliquez sur "Continuer" pour accepter les conditions générales, et vous êtes prêt à utiliser DALL-E 2.

Créer une oeuvre d’art avec DALL-E 2

Voici comment vous inscrire et comment faire fonctionner le générateur d'art par l'IA (intelligence artificielle) pour vous.

DALL-E 2 est désormais disponible en version bêta pour tous.

Ce générateur d'art IA (intelligence artificielle) permet aux utilisateurs de générer des images en tapant simplement une description de ce qu'ils veulent.
Cependant, les résultats peuvent être aléatoires, il est donc conseillé d'apprendre à affiner les prompts pour améliorer les résultats.
Si vous préférez créer votre propre œuvre originale de manière traditionnelle, consultez notre guide des meilleurs logiciels de conception graphique.

Futur de DALL-E

Les applications potentielles de DALL-E 2 sont vastes, notamment pour la création d'illustrations, de conceptions de produits, d'œuvres d'art, d'images photoréalistes pour les films et les jeux vidéo.
DALL-E représente une avancée significative en matière d'intelligence artificielle
DALL-E aidera les chercheurs à étudier les répercussions de l'évolution technologique sur la société, ainsi que les défis éthiques associés aux nouvelles technologies.

Tarifs

DALL-E 2 est-il gratuit ?

Jusqu'en juillet, il l'était (pour ceux qui y avaient accès et notamment des crédits gratuits), mais OpenAI utilise désormais un modèle basé sur les crédits.

Les nouveaux utilisateurs de DALL-E 2 reçoivent 50 crédits gratuits qu'ils peuvent utiliser pour générer, modifier ou créer une variation d'une image (les nouvelles générations d'images donnent quatre images de 1024 X 1024 pixels pour le coût d'un crédit).

Après cela, les utilisateurs reçoivent 15 crédits gratuits DALL-E 2 gratuits chaque mois.
Pour en obtenir davantage, il faut les acheter au prix de 15 dollars pour 115 crédits (suffisants pour générer 460 images de 1024 X 1024 pixels).
OpenAI a invité les artistes qui ont besoin d'une aide financière à poser leur candidature pour un accès subventionné.

Résumé.

En tant que générateur de texte en image révolutionnaire, DALL-E d'OpenAI a ouvert la voie à une compréhension plus fine de notre monde.

Pour démarrer il ne vous suffit que d'une adresse mail. Qu'il s'agisse de créer des images originales ou de travailler avec l'digital art pour créer des expériences innovantes, DALL-E produit des images uniques et cohérentes à une échelle jamais vue auparavant.

Les marques et les entreprises exploitent désormais les modèles de génération d'images pour créer des images réalistes de leurs produits, ce qui ne fera qu'augmenter à l'avenir.

Avec sa capacité à considérer les idées implicites et à créer des images exceptionnelles, DALL-E ouvre la voie à une nouvelle ère d'innovation visuelle.

‍

LECTURES COMPLÉMENTAIRES : La technologie d'IA (intelligence artificielle) est désormais présente dans de nombreux aspects d'une entreprise.

Qu'il s'agisse de l'utilisation d'un système d'IA écrire du contenu, créer des livres et élaborer des supports marketing, ou de l'utilisation d'outils marketing d'IA (intelligence artificielle) pour analyser les données et segmenter les audiences, les avantages de l'IA (intelligence artificielle) pour les entreprises sont nombreux.

Les générateurs vidéo d'IA (intelligence artificielle) sont également utilisés pour créer du matériel vidéo réaliste et de haute qualité, et cette tendance est appelée à se poursuivre.

LIRE PLUS : Comment transformer une photo en dessin ?

FAQs

DALL-E 2 est-il disponible ?

Pendant les cinq premiers mois suivant la sortie de l'outil en avril, l'accès à DALL-E 2 était limité, et la liste d'attente était longue. Mais en septembre 2022, l'accès a été ouvert afin que tout le monde puisse compléter l'inscription à DALL-E 2

Aujourd'hui, l'utilisation de DALL-E 2 n'est plus gratuite.

Au lieu de cela, les utilisateurs recevront un nombre limité de crédits gratuits mensuels, avec la possibilité de payer pour les recharger (voir ci-dessous).

Pouvez-vous enlever le filigrane de DALL-E 2 ?

Lorsque vous téléchargez une image créée dans DALL-E 2, elle comporte le filigrane de la bande de couleur en bas à droite de l'image.

Toutefois, selon les conditions de DALL-E 2, ce filigrane peut être supprimé sur les images générées, ce qui, dans de nombreux cas, peut être nécessaire pour un travail commercial.
Il devrait être assez facile de supprimer le filigrane dans n'importe quelle application dotée d'un outil de suppression d'objet, de clonage ou de remplissage en fonction du contenu, par exemple Photoshop. Il existe également un moyen de télécharger directement l'image sans filigrane.
Sur le bureau, vous pouvez cliquer avec le bouton droit de la souris sur l'image, choisir "Inspecter", puis rechercher l'URL windows.net.
Copiez le lien d'image et vous devriez constater que l'image ne contient pas de filigrane.

Sur un téléphone portable, vous pouvez toucher et maintenir l'image sur la page de génération et cliquer sur "Enregistrer l'image".

Que signifie DALL-E ?

Comment les créateurs de cette entreprise ont-ils trouvé le nom DALL-E ?

Le nom est une combinaison de l'artiste Salvador Dali et du robot WALL-E de Pixar.

Combinant à la fois l'art et l'animation numérique à l'aide de l'intelligence artificielle, le système DALL-E de cette entreprise laisse sa marque dans le monde de l'IA.

Qu'est-ce que CLIP pour DALL-E ?

DALL-E a été révélé à peu près en même temps que son autre réseau neuronal, le Contrastive Language-Image Pretraining (CLIP).

Ce modèle est distinct de DALL-E et a été entraîné avec 400 millions de paires d'images dont le texte avait été préalablement supprimé.

Son lien avec DALL-E consistait à comprendre et à classer les résultats de DALL-E en devinant quelle légende, sélectionnée parmi des milliers, serait la plus acceptable pour l'image.

CLIP a créé des descriptions textuelles pour les ai generated images par le logiciel DALL-E.

La méthode de DALL-E est appelée le clip inversé, ou unCLIP, parce qu'elle fait l'inverse de ce que fait CLIP, en générant des images à partir de texte au lieu de faire du texte à partir d'images.

Certains des liens figurant dans cet article peuvent être des liens d'affiliation, qui peuvent me procurer une rémunération sans frais pour vous si vous décidez d'acheter un plan payant.
Ce sont des outils que j'ai personnellement utilisés, que je soutiens et qui permette de vous offrir du contenu gratuit.

Qu'est-ce que DALL-E: transformation de texte en images ?

Points clés à retenir