OpenAI intègre de nouvelles capacités de génération d’images directement dans ChatGPT à partir d’aujourd’hui – cette fonctionnalité est surnommée « Images dans ChatGPT ». Les utilisateurs peuvent désormais utiliser GPT-4o pour générer des images dans ChatGPT lui-même.
Cette version initiale se concentre uniquement sur la création d’images et sera disponible dans les niveaux d’abonnement ChatGPT Plus, Pro, Team et Free. La limite d’utilisation du niveau gratuit est la même que celle de DALL-E, a déclaré la porte-parole Taya Christianson à The Verge, mais a ajouté qu’ils « n’avaient pas de numéro spécifique à partager » et que « ceux-ci pourraient changer au fil du temps en fonction de la demande ». Selon la FAQ ChatGPT, les utilisateurs gratuits pouvaient auparavant générer « trois images par jour avec DALL· E 3. En ce qui concerne le sort de DALL-E, Christianson a déclaré que les « fans » auront « toujours accès via un GPT personnalisé ».
« Ce modèle est un changement radical par rapport aux modèles précédents », a déclaré le responsable de la recherche, Gabriel Goh, à The Verge, ajoutant que l’équipe a utilisé la base « omnimodale » GPT-4o – ou un modèle capable de générer tout type de données comme du texte, de l’image, de l’audio et de la vidéo – pour cette fonctionnalité.
Parmi les améliorations notées par Goh, citons la « liaison », qui fait référence à la façon dont les générateurs d’images d’IA maintiennent des relations correctes entre les attributs et les objets ; Un modèle avec une mauvaise liaison, par exemple, peut recevoir une invite pour une étoile bleue plus un triangle rouge et créer une étoile rouge et aucun triangle.
La plupart des modèles d’image ont du mal avec cela, a déclaré Goh, mélangeant souvent les couleurs et les formes lorsqu’on leur demande de rendre plusieurs éléments – généralement autour de 5 à 8. Selon lui, ce nouvel outil de génération d’images peut lier correctement les attributs de 15 à 20 objets sans confusion, ce qui représente une amélioration significative de la précision et de la fiabilité.
Les utilisateurs remarqueront également une amélioration du rendu du texte, ce qui facilite la génération de texte cohérent sans fautes de frappe sur une image (dans les outils existants, vous remarquerez souvent que le texte est brouillé assez facilement). Obtenir un rendu de texte correct était un défi de taille, a déclaré Goh. Si de petits titres ou éléments de texte comportent des fautes de frappe ou des erreurs, l’image entière peut devenir inutilisable.
« C’était juste comme un processus d’itération qui a pris de très nombreux mois pour bien se dérouler », a déclaré Goh. Bien qu’il ne soit pas parfait, il a déclaré que l’équipe a atteint un point où la qualité du texte est constamment utilisable (là où elle a tendance à commettre des erreurs, c’est vraiment du texte de petite taille). « Cela ne fait que de nombreux mois de petites améliorations. »
Le système utilise une approche autorégressive – générant des images séquentiellement de gauche à droite et de haut en bas, de la même manière que le texte est écrit – plutôt que la technique du modèle de diffusion utilisée par la plupart des générateurs d’images (comme DALL-E) qui créent l’image entière en une seule fois. Goh suppose que cette différence technique pourrait être ce qui donne aux images de ChatGPT de meilleures capacités de rendu de texte et de liaison.
Lors d’un briefing avant le lancement de la fonctionnalité, l’équipe a présenté plusieurs exemples montrant les capacités du système, notamment des diagrammes scientifiques tels que l’expérience du prisme de Newton avec des composants correctement étiquetés, des bandes dessinées à plusieurs panneaux avec des caractères cohérents et des bulles de texte, et des affiches informatives avec un texte précis. Ils ont également mis en évidence des applications pratiques telles que la création d’images d’arrière-plan transparentes pour les autocollants, les menus de restaurants et les logos.
« Si je vais dessiner une image, je le fais avec la limite de mes propres compétences… mais aussi avec toutes les connaissances du monde que j’ai accumulées », a expliqué Jackie Shannon, chef de produit multimodal chez ChatGPT. « Le modèle apporte une connaissance mondiale à l’équation, de sorte que lorsque vous demandez une image de l’expérience du prisme de Newton, vous n’avez pas besoin d’expliquer ce que c’est pour obtenir une image en retour. »
Le nouveau système prend plus de temps pour générer des images qu’auparavant, bien qu’OpenAI suggère que c’est un compromis qui en vaut la peine. « Bien que nous ayons certainement de la place pour améliorer la latence… la qualité de ces images, la capacité, la connaissance du monde, compensent vraiment les secondes supplémentaires qu’ils passeront à attendre », a déclaré Shannon.
Interrogée sur les mesures de protection – soulignant les tristement célèbres deepfakes nus de Taylor Swift générés à l’aide d’un modèle Microsoft, la capacité de xAI à rendre Kamala Harris avec une arme à feu et le talent de Google Gemini pour supprimer les filigranes – l’équipe d’OpenAI a souligné que le système comprend des mesures de protection robustes pour éviter les abus. Shannon a déclaré que l’outil empêche la suppression des filigranes, bloque la génération de deepfakes sexuels et refuse les demandes de génération de CSAM.
Le nouveau système de génération d’images d’OpenAI n’inclut pas de filigranes visuels ou d’indicateurs indiquant que les images sont générées par l’IA. Cependant, Shannon a expliqué que « toutes nos images générées incluront des métadonnées C2PA standard pour marquer l’image comme ayant été créée par OpenAI » et que la société « disposera d’outils internes pour pouvoir également rechercher des images ».
« En fin de compte, aucun système n’est parfait pour ce genre de chose, mais nous améliorons constamment nos mesures de protection et nous considérons cela comme un point de départ », a ajouté Shannon. « Une chose qui est vraie à propos de toutes les images générées par ChatGPT, c’est que l’utilisateur les possède et est libre de les utiliser dans les limites de nos politiques d’utilisation comme il le souhaite. »