Représenter sa réception d’un texte littéraire en images avec Midjourney: analyse des attentes des élèves et des productions générées par l’intelligence artificielle générative



lntroduction

L’avènement rapide des intelligences artificielles dans divers domaines de la société, de la culture et de l’art a profondément bouleversé les milieux culturels et éducatifs, en renouvelant des questions concernant, entre autres, la portée créative et l’esthétique des productions générées par les machines (Ganascia, 2017; Manovic, 2018), leur originalité et auctorialité (Bensamoun, 2020), leurs configurations sociotechniques (Velkovska et Relieu, 2021) et leurs démarches herméneutiques (Roberge et Lebrun, 2023). Dans les milieux éducatifs, sont soulevés, en plus d’enjeux éthiques et critiques (voir, entre autres, Collin et Marceau, 2021), des questionnements didactiques, liés, d’une part, aux compétences littéraciques et médiatiques nécessaires pour analyser des messages générés par le biais d’interactions humain-machine, d’autre part, à la manière dont les savoirs littéraires sont acquis, mobilisés ou réinvestis en travaillant avec les machines. 

Inscrite dans une réflexion concernant la formation du sujet-lecteur/scripteur numérique et dans une démarche exploratoire d’analyse des productions générées par les intelligences artificielles, notre contribution se propose d’interroger un corpus de productions numériques générées dans une classe québécoise de 3e année de secondaire dans le cadre d’une activité de production et réception littéraires réalisée avec Midjourney, un programme d’intelligence artificielle générative (Gozalo-Brizuela et Garrido-Merchán 2023) qui permet de créer des images à partir de commandes textuelles. Dans un premier temps, nous examinerons les attentes que les élèves expriment par rapport à la capacité de l’intelligence artificielle à traduire en images des textes, en l’occurrence issus d’œuvres littéraires, pour ensuite observer l’analyse qu’iels feront des images tant par rapport au texte de départ qu’à leurs attentes initiales. Dans un deuxième temps, en nous intéressant aux images produites par Midjourney, nous chercherons à déterminer quelles formes de collaboration, de redondance ou de disjonction iconotextuelles (Van der Linden 2006; 2008; Nikolajeva et Scott 2006) semblent mises en œuvre dans le traitement de l’extrait sous forme d’images proposées par le logiciel d’intelligence artificielle générative.

1. Repères théoriques

1.1. Les intelligences artificielles génératives et leurs commandes

De plus en plus utilisées dans différents domaines, allant de la traduction au marketing, de l’art numérique à la médecine, les intelligences artificielles génératives se caractérisent par l’exploitation de modèles linguistiques et d’apprentissage automatique qui permettent de produire de nouveaux contenus à partir de ressources médiatiques existantes, comme des textes, des éléments graphiques, des contenus audios ou vidéos (Jovanović et Campbell 2022). En fonction des technologies et des logiciels, les intelligences artificielles génératives parviennent, par exemple, à générer des textes à partir d’autres textes, comme le fait ChatGPT, mais également à partir de vidéos (voir, par exemple, Phenaki), de contenus sonores (voir, par exemple, Jukebox) ou même de formules scientifiques (voir, par exemple, Galactica). D’autres intelligences artificielles génératives, en revanche, utilisent des données textuelles pour créer des images bidimensionnelles, à l’instar de Midjourney ou de Dall·e, ou tridimensionnelles (voir, par exemple, les productions possibles avec Dreamfusion). Ces données textuelles, dites prompts, sont à considérer comme de véritables instructions, en langage naturel, visant à enclencher une analyse de la part de l’intelligence artificielle et à orienter le rendu final (Lou, Zhang et Yin 2023)1.

Selon différentes analyses portant sur l’ingénierie des prompts, pour que l’intelligence artificielle puisse se servir de sa capacité d’analyse linguistique et d’autoapprentissage, remplissant ainsi la tâche demandée par l’utilisateur·rice, ces indications textuelles doivent avoir un certain nombre de caractéristiques: par exemple, être cohérentes tout au long du processus de négociation avec l’intelligence artificielle, suffisamment diversifiées pour provoquer des variations et clairement orientées vers une forme d’apprentissage de la machine (Lou, Zhang et Yin 2023). En ce qui concerne la génération d’images à partir de textes, à laquelle nous nous intéressons plus particulièrement dans le cadre de cette contribution, d’autres paramètres nécessitent d’être pris en compte. En s’appuyant sur différentes expériences, Liu et Chilton (2022) ont notamment constaté qu’une interaction réussie avec l’intelligence artificielle, c’est-à-dire menant à un résultat en accord avec les instructions fournies, implique, entre autres, l’utilisation de mots-clés identifiant le thème de l’image et le style artistique souhaités, la génération de plusieurs images d’essai et la sélection de thèmes dont le niveau d’abstraction s’arrime à celui du style choisi. Oppenlaender (2023) a, de son côté, élaboré une typologie de modificateurs de commandes susceptibles de faire varier le résultat et d’être exploités dans une visée artistique. Le premier type de modificateurs concerne l’identification d’un ou plusieurs sujets de l’image, qui permettent d’indiquer à l’intelligence artificielle le ou les objets souhaités: si la définition de ces éléments «est essentielle pour contrôler le processus de génération de l’image» (Oppenlaender 2023, notre traduction), elle n’est pas une condition nécessaire pour enclencher le processus et certains auteur·rice·s peuvent donner aux intelligences artificielles des instructions portant uniquement sur le style. Le deuxième type concerne justement le style et donc l’identification de courants, périodes et écoles artistiques, ou bien d’artistes, matériaux, techniques ou supports sur lesquels l’utilisateur·rice souhaite voir représentée l’image générée par l’intelligence artificielle. Le troisième implique le réinvestissement d’une ou plusieurs images d’essai en guise de nouvelles commandes: dans ce cas, l’intelligence artificielle est censée profiter de ses capacités d’autoapprentissage et élaborer des variations sur le thème de ses premières propositions, en reconfigurant ou enrichissant l’image initialement générée. Le quatrième modificateur concerne l’utilisation d’«amplificateurs de qualité», que l’utilisateur·rice peut mobiliser pour «augmenter les qualités esthétiques et le niveau de détail des images» (Oppenlaender 2023, notre traduction): iel peut, par exemple, demander aux intelligences artificielles de produire une image «avec des couleurs sublimes» ou «digne d’un prix d’art contemporain» (Oppenlaender 2023, notre traduction), en laissant donc à la machine la possibilité d’exprimer une représentation algorithmique de la beauté ou de la légitimité artistique. Le cinquième concerne la répétition de termes qui permettent de renforcer les associations sémantiques que l’intelligence artificielle est en mesure d’établir. Enfin, le dernier type de modificateurs concerne l’introduction de termes dits «magiques», soit sémantiquement distants du sujet de la commande et se référant, par exemple, à des qualités non visuelles, comme le toucher ou l’ouïe (Oppenlaender 2023).  

Ces différentes caractéristiques et variables des prompts susceptibles de conditionner l’interaction avec les intelligences artificielles, ainsi que leurs productions, ont déjà mené à interroger la portée artistique de l’écriture des commandes («Is writing prompts really making art?», se demandent McCormack et collègues) et les compétences nécessaires pour les rédiger (Korzynski et al. 2023). D’autres questions ont ciblé plus largement les capacités artistiques et créatives des intelligences artificielles génératives ainsi que la nature des productions générées. Décrites tantôt comme des «machines à plagiat» (Chomsky, Roberts et Watumull 2023), tantôt comme des technologies porteuses d’une «créativité artificielle» (Gefen 2023), les intelligences artificielles génératives créent des contenus dont le statut et la genèse demeurent partiellement opaques. À cet égard, que se passe-t-il lorsque le prompt est une citation littéraire? Comment, plus particulièrement, se comporte une intelligence artificielle générative comme Midjourney, qui crée des images à partir de textes, lorsque la commande ne mentionne pas des objets ou des styles artistiques ou encore lorsqu’elle comporte des énoncés métaphoriques ou un langage symbolique? Comment analyse-t-elle l’extrait? Cherche-t-elle à le situer par rapport au cotexte ou, plus largement, par rapport à l’œuvre dont il est issu? Quelles formes de collaboration, de redondance ou de disjonction iconotextuelles (Van der Linden 2006; 2008; Nikolajeva et Scott 2006) peut-on constater? Sur quels indices sémantiques ou thématiques semble-t-elle fonder sa transposition iconique? Peut-on identifier, dans ses démarches de traitement et de reconfiguration des données textuelles, des choix, des parcours ou des reconfigurations algorithmiquement subjectifs?

1.2. Les intelligences artificielles et l’expression de la subjectivité lectorale

Si une intelligence artificielle générative comme Midjourney est appelée à interpréter des données textuelles, l’usager·e qui les a saisies se doit d’analyser à son tour les productions qu’elle génère à partir de ses instructions. Comment les reçoit-iel? Recherche-t-iel des échos des textes de départ ou bien considère-t-iel comme acceptables des transpositions très éloignées des univers, narratifs et stylistiques, des textes de départ? Négocie-t-iel avec le logiciel pour parvenir à des productions plus proches de ses images mentales? Répondre à ces questions et interroger la réception que les élèves font des propositions de Midjourney revient non seulement à examiner comment iels procèdent lorsqu’iels analysent conjointement des images et des textes, mais également à observer comment iels expriment leur subjectivité lectorale (Langlade 2006) dans l’interaction avec la machine. Nous supposons, en effet, que le cadre technologique offert par les intelligences artificielles génératives et le processus de négociation auquel elles invitent pourraient constituer un nouvel espace d’expression de la subjectivité lectorale, dont les manifestations seraient à la fois issues de ressources et processus cognitifs, épistémiques, socioculturels, psychoaffectifs propres à chaque individu, et de conditions matérielles, discursives et techniques propres aux environnements numériques génératifs, qui baliseraient et détermineraient les horizons de production et de réception. À cet égard, si les intelligences artificielles génératives conditionnent l’agir du sujet en fonction de leurs caractéristiques et propriétés algorithmiques, elles lui permettent également d’agir subjectivement, par exemple au moment de la sélection et de la saisie d’une information textuelle pour la machine, lors de l'analyse des résultats, ou encore lors de la réévaluation éventuelle des consignes à l’aune de ses réactions, intuitions, curiosités, désirs, intentions et attentes propres. Dans cette perspective, les logiciels d’intelligences artificielles génératives et les processus informatiques sur lesquels ils reposent ne se limiteraient pas à influencer les manifestations de subjectivité, mais ils les détermineraient, les opérations prédictives et performatives de traitement, moissonnage et analyse des données textuelles venant reconfigurer le regard que le lecteur porte sur le texte, voire conditionner — ou programmer informatiquement — sa manière de le lire, de le comprendre, de le penser. Le sujet-lecteur numérique (Robinson 2022; Andrejevic 2020; Kiepas 2020) s’exprimerait ainsi au sein et par le biais d’un inconscient algorithmique, qui «brouillerait, briserait et reformaterait» (Beller 2021: 50) les modes d’expression de sa subjectivité. Plus précisément, l’activité fictionnalisante du sujet-lecteur numérique (ses concrétisations imageantes, ses jugements axiologiques, ses activations fantasmatiques, ses perspectives de cohérence mimétique) (Langlade 2006) s’appuierait aussi bien sur une reconfiguration personnelle du texte que sur l’anticipation des potentialités créatives de l’intelligence artificielle générative. 

2. Méthodologie

2.1. Design de la recherche

L’expérience ici analysée a été élaborée dans le cadre du projet de recherche-action Multinumeric (FRQSC 2020-2023), qui vise à soutenir le développement de la compétence numérique par la littératie médiatique multimodale chez des élèves du secondaire dans différentes disciplines scolaires (en français, en univers social et en art), par la cocréation, la mise en œuvre et l’analyse de pratiques pédagogiques faisant appel au numérique. Réalisée entre décembre 2022 et mai 2023, à l’issue d’une première année de travail sur la lecture littéraire numérique, la séquence conçue pour le volet du projet concernant l’enseignement du français a été élaborée par trois cochercheur·es de l’équipe et par une enseignante de français exerçant en 3e année d’école secondaire (14-15 ans) dans un collège privé montréalais2. Différentes rencontres de cocréation en format distanciel ont eu lieu, afin d’identifier la problématique de la séquence; d’arrimer les compétences numériques visées aux programmes d’enseignement en français; de choisir les logiciels et les outils pédagogiques qui auraient été utilisés (portfolio, journal de bord, carnet de lecture, questionnaires d’accompagnement de la lecture littéraire, etc.). Des échanges de courriels, des partages de documents (articles scientifiques et ressources théoriques sur la théorie de la lecture littéraire numérique; référentiels des compétences numériques, etc.) ont complété la démarche. Structurée autour d’une question bien précise, formulée par l’enseignante lors de la première rencontre de cocréation («Comment s’engager dans un monde dont le sens nous échappe?»), la séquence a comporté, dans un premier temps, la lecture et l’analyse d’un corpus de textes littéraires de genres variés sur les thèmes de l’engagement et du non-sens3, puis, dans un deuxième temps, la mise à l’essai de deux logiciels d’intelligence artificielle générative, ChatGPT et Midjourney, dans le cadre de différentes activités de réception et production littéraire.  

2.2. Description de l'activité

Articulé en trois activités, le volet de la séquence didactique comportant l'utilisation du numérique se proposait d’impliquer les élèves dans une forme de «dialogue» avec des logiciels d’intelligence artificielle sur les thèmes de l’engagement et du non-sens. Pour la première activité, dont nous rendons compte dans le cadre de cet article, l’enseignante avait notamment prévu de travailler avec Midjourney dans une perspective interprétative et appréciative. Les élèves devaient sélectionner un extrait qu’iels avaient particulièrement aimé (issu du corpus de textes narratifs, théâtraux et poétiques analysés dans la première partie de la séquence) et justifier leur appréciation au vu de critères esthétiques et thématiques, ainsi que d’une définition personnelle de l’engagement et du non-sens. Iels devaient également formaliser leurs attentes visuelles vis-à-vis de Midjourney, en anticipant la capacité du logiciel à restituer une image de l’extrait plus ou moins conforme à son contenu, tel qu’iels l’avaient appréhendé et imaginé au moment de la lecture. Dans cette sélection, les élèves devaient notamment établir des «liens entre des éléments thématiques du texte et le fonctionnement de Midjourney» 4, en anticipant, par exemple, les types de requêtes possibles et le rendu graphique de l’image, puis générer quelques images et les analyser, dans l’optique d’en choisir une, qu’iels avaient ensuite à interpréter de manière plus approfondie, en la mettant en relation avec le texte de départ. Dans cette étape, iels devaient être en mesure de porter un regard esthétique et critique sur les productions Midjourney, tant par rapport à l’extrait qu’aux processus génératif et automatisé de création d’images proposé par l’intelligence artificielle. Conformément aux intentions de l’enseignante, cette activité présupposait ainsi une réflexion, analytique et subjective, sur le texte de départ, une interaction avec le logiciel d’intelligence artificielle générative, et un questionnement, analytique et sensible, de ses capacités à s’approprier les indications textuelles fournies et à les traduire en images. Ces différents aspects auraient ensuite fait l’objet d’une évaluation, l’enseignante se proposant d’interroger la capacité des élèves à choisir un extrait sur la base d’arguments subjectifs, liés, d’une part, au «retentissement artistique et thématique» de l’œuvre de départ sur soi, d’autre part, aux représentations des réponses possibles du logiciel et de sa capacité à restituer une image plus ou moins conforme à leurs attentes esthétiques et thématiques. Tous les travaux des élèves ainsi que les images produites par Midjourney devaient être consignés dans un portfolio numérique individuel, sur lequel nous baserons nos analyses et constats.

3. Présentation des données

Dans cette section, nous examinerons les attentes que les élèves expriment par rapport à la capacité de Midjourney à traduire en images l’extrait qu’iels ont sélectionné, pour ensuite nous intéresser à leur analyse des images produites par le logiciel d’intelligence artificielle tant par rapport au texte de départ qu’aux préfigurations initiales. Notre attention se portera plus spécifiquement sur cinq portfolios d’élèves, qui témoignent d’approches très contrastées en ce qui concerne aussi bien la formulation des attentes vis-à-vis de Midjourney et de sa capacité à restituer une image de l’extrait plus ou moins conforme à leurs représentations, que l’analyse des productions générées par le logiciel d’intelligence artificielle générative.

3.1. Analyse des portfolios: du texte littéraire à la production générative

3.1.1. Attentes de représentation de l’extrait

L’analyse des portfolios des élèves révèle tout d’abord que les attentes visuelles concernant les images que Midjourney sera en mesure de générer s’expriment au moins de trois manières différentes.

Une partie des élèves s’attache à décrire assez finement l’image attendue, en donnant des indications précises sur les caractéristiques des personnages, leurs attitudes, leurs traits physiques et états psychologiques:

En lisant ce passage5, j’avais en tête une image d’une jeune fille en habit simple avec le minimum de possession — une fille de bohème sur un train. Elle regarde dehors, on ne peut pas voir sa face ni son expression. Elle est détendue et semble à l’aise. On ne voit pas clairement ce qui se passe dehors, parce que le train part assez vite pour mettre tout l’extérieur en mouvement. Mais il y a beaucoup de couleurs dehors, même si on ne sait pas elles appartiennent à quoi6.

Extrait du portfolio de Parnika

Je m’attends à voir quelqu’un de visiblement déprimé et piteux (dû aux envies suicidaires) qui mange du chocolat et le tout très peu coloré à part peut-être le chocolat lui-même7.

Extrait du portfolio de Maxence

Comme le démontrent respectivement les propos de Maxence et de Parnika, ces indications peuvent s’appuyer soit sur la reprise d’éléments de l’extrait soit sur des interprétations subjectives des passage cités. Si les attentes du premier renvoient au texte sélectionné, dans lequel sont évoqués aussi bien le chocolat que des pensées suicidaires, celles de Parnika, qui mettent notamment l’accent sur l’image d’une jeune femme à l’air détendu, voyageant en train dans une direction indéterminée, font écho à son interprétation du passage et des états d’âme du personnage: «en le (= le passage) lisant, on ressent le contraste entre la mobilité et la tranquillité», écrit-elle, avant d’expliquer, en citant à deux reprises l’extrait, que le personnage est pris dans le «mouvement des choses», qu’il vit sereinement, car, d’une part, il semble apprécier ne pas être «statique» et, d’autre part, il sait que les changements sont inévitables:

En le (= le passage) lisant, on ressent le contraste entre la mobilité et la tranquillité. Suzanne s’est mise à la fois en dehors de ce mouvement puisqu’elle «[avale] tout des yeux tranquillement» comme si les mouvements ne la concernent pas, mais elle fait aussi partie de cette mobilité puisqu’elle est aussi en mouvement et aime le fait qu’elle n’est pas statique. De plus, c’est un peu fou de dire qu’on se sent à sa place quand il n’y a pas une place fixe pour nous de rester et qu’elle est dans le mouvement des choses. C’est lié à l’absurdité de la vie puisque tout est continuellement en train de changer, et on ne peut pas mettre pause sur le temps pour que les choses restent telles qu’elles sont. Je trouve que ce passage est aussi fortement lié au temps puisque le mouvement des choses autour de nous (et nous-mêmes) est comme le passage du temps; et comme quand le temps coule, on ne peut pas modifier la suite des choses puisqu’il n’y a pas de possibilité de le faire une fois qu’elles sont passées. (…) Mais ce passage montre aussi l’engagement dans ce monde dont on ne peut pas changer les choses. Suzanne est «installée» et se sent «à [sa] place» même si tout autour elle, les choses sont en train de se dérouler.

Extrait du portfolio de Parnika

En revanche, pour une autre partie des élèves, à l’instar de Saynoon, les attentes visuelles de transposition de l’extrait sont formulées de manière plus vague, en indiquant simplement qu’iels espèrent recevoir une image qui exprime l’atmosphère du récit ou les émotions des personnages:

En ce qui concerne mes attentes visuelles/esthétiques pour l’extrait choisi8 dans Midjourney, j’aimerais voir une représentation visuelle qui reflète la profondeur émotionnelle de la phrase. Je souhaite que l’image capturée transmette la tristesse et la détresse des personnes. 

Extrait du portfolio de Saynoon

Enfin, quelques formulations des attentes vis-à-vis de Midjourney témoignent de la volonté de certain·es élèves de mettre à l’épreuve l’intelligence artificielle et de tester ses capacités de figuration des extraits. Les propos de Maxence semblent justement valoriser le potentiel créatif du logiciel, auquel il reconnait la faculté d’articuler des termes et des images appartenant à des champs éloignés. Dès lors, son choix de l’extrait, explique-t-il dans le portfolio, est justifié par le désir de voir une image qu’«un humain» pourrait difficilement élaborer, car elle présuppose l’articulation de «deux termes qui ont normalement un symbolisme presque opposé». Il s’en explique en insistant sur l’incongruité apparente de l’extrait textuel choisi, dans lequel le narrateur établit un lien de causalité entre le fait d’être dans un état de profonde détresse («Quand on a envie de crever») et celui d’éprouver un plaisir inédit d’une expérience banale («le chocolat a meilleur gout que d’habitude»).

3.1.2. Analyse de l’interprétation des images produites par Midjourney

L’interprétation et l’appréciation des images produites par Midjourney, livrées également dans les portfolios, permettent d’examiner la manière dont les élèves s’attachent à identifier des liens thématiques entre les images et les textes de départ, voire expriment leur jugement esthétique sur les productions de l’intelligence artificielle générative. Dans ce cas aussi, les travaux considérés témoignent de démarches très différentes, allant d’une lecture des productions de Midjourney apparemment décorrélée des extraits à une analyse plus attentive à l’identification des liens entre les images et les textes de départ.

Les analyses contenues dans les portfolios de Saynoon, de Maxence et d’Anderson sont représentatives d’une lecture centrée sur l’image générée par Midjourney qui fait abstraction de l’extrait textuel de départ. Saynoon, par exemple, analyse la transposition proposée par Midjourney d’une citation du roman de Romain Gary La vie devant soi («C’est toujours dans les yeux que les gens sont les plus tristes») et pointe des éléments qui contribuent, à son avis, à restituer l’atmosphère du passage et l’état d’âme des personnages, qu’elle avait auparavant décrits comme empreints de «tristesse et de détresse». Dès lors, elle décrit les «couleurs chaudes» de l’image et sa «lumière tamisée», qui créent un environnement «doux», «introspectif», «invitant à la contemplation». Elle s’attache également à décrire les «ombres» sur le visage du personnage, qui «ajoutent une mélancolie à l’image», et ses yeux, qu’elle définit, de manière assez paradoxale, comme «légèrement embués, suggérant une tristesse contenue».

Figure 1. Image et analyse tirées du portfolio de Saynoon.

Extrait: «C’est toujours dans les yeux que les gens sont les plus tristes» de La vie devant soi.

 Après avoir exploré différentes options, j’ai choisi une image d’un visage aux yeux qui pleurent dans une lumière douce et tamisée. Les yeux du sujet sont légèrement embués, suggérant une tristesse contenue. Le visage est encadré par des ombres, ajoutant une dimension de mélancolie à l’image. J’ai opté pour cette image car elle capture la subtilité et l’intensité émotionnelle des yeux, tout en maintenant une certaine beauté esthétique. Les couleurs chaudes et la lumière tamisée créent une atmosphère douce et introspective, invitant à la contemplation.

L’élève, qui souhaitait retrouver, dans l’image de Midjourney, «la profondeur émotionnelle de la phrase» de Gary ainsi que «la tristesse et la détresse des personnes», semble désormais se concentrer uniquement sur l’image, dont elle justifie le choix en n’invoquant que des critères issus de son analyse de quelques éléments iconiques: «J’ai opté pour cette image car elle capture la subtilité et l’intensité émotionnelle des yeux, tout en maintenant une certaine beauté esthétique». Elle semble également faire abstraction de l’écart entre la représentation de la jeune fille en larmes proposée par le logiciel d’intelligence artificielle générative et celle de Monsieur Hamil, le vieux marchand de tapis, musulman pieux, auquel la citation fait référence. Dans son analyse, les différences entre les caractéristiques physiques des deux personnages ne sont pas discutées. La «tristesse contenue» du personnage n’est pas non plus analysée en tenant compte de celle du personnage dans l’extrait du roman. En effet, Monsieur Hamil, dans le passage en question, est chagriné par les questions que Momo lui pose à propos de ses parents, de son âge et de ses origines, car il n’est pas en mesure de lui répondre. En revanche, si les causes de cette tristesse teintée de gêne, d’affection, de pitié et d’empathie, ne sont pas discutées dans l’analyse de l’image, l’élève reconnait à la production de Midjourney la capacité à restituer la «profondeur émotionnelle» qu’elle avait attribuée à l’extrait.

De même, face à la production de Midjourney issue de la citation de Gary, «Quand on a envie de crever, le chocolat a encore meilleur gout que d’habitude», Maxence se saisit de la représentation du personnage, des couleurs prédominantes et de l’organisation graphique des différents éléments pour analyser l’image à partir d’une interprétation sommaire de la citation. L’élève semble faire abstraction du contexte de l’extrait et ne revient pas sur l’association possible entre la condition du personnage de Momo, auquel renvoie la citation, et celui de la petite fille représentée dans l’image de Midjourney. L’analyse proposée par l’élève convoque, au contraire, des aspects qui ne font pas partie de l’imaginaire véhiculé par le texte de départ et qui semblent relever de préoccupations propres à l’élève, concernant la solitude, la dépression et l’aliénation du travail. Ainsi, la relative monochromie de l’image produite par l’intelligence artificielle est mise en relation avec la supposée dépression du personnage sur l’image, qui guetterait la mort; la présence d’une petite fille «encerclée de chocolat» et l’absence de voies d’issues («et il n’y a nulle part où elle peut sortir») sont comparées à l’enfermement d’une personne «dépressive ou déprimée (qui) pourrait se sentir emprisonnée par des mauvaises pensées et par la tristesse»; l’expression neutre de la petite fille, ni joyeuse ni vraiment triste, est justifiée par l’ambivalence de la scène, le personnage ayant envie de mourir, mais étant entouré d’un produit qu’il est censé considérer comme délicieux («la petite fille n’a pas l’air si déprimée, mais elle n’a pas l’air joyeuse non plus. Cela est probablement dû au fait qu’elle est supposée vouloir crever, mais qu’elle doit paraître aimer le chocolat»). Enfin, la tenue, l’air relativement serein et l’allure routinière avec laquelle la petite fille semble se charger de la décoration des chocolats évoquent pour l’élève l’absurdité de certaines tâches professionnelles, répétitives et aliénantes: «Alors on pourrait aussi dire qu’elle est enfermée dans la routine et la répétition ce qui revient à l’absurdité de la répétition dans le monde dans lequel on vit».

Figure 2. Image et analyse tirées du portfolio de Maxence.

Extrait: «Quand on a envie de crever, le chocolat a encore meilleur gout que d’habitude» de La vie devant soi

Premièrement, la petite fille n’a pas l’air si déprimée, mais elle n’a pas l’air joyeuse non plus. Cela est probablement dû au fait qu’elle est supposée vouloir crever, mais qu’elle doit paraître aimer le chocolat. De plus, l’image est monotone. Elle est principalement brune avec du chocolat, mais même la petite fille est habillée en brun. La diversité de couloir est souvent associée à la joie et à d’autres bonnes choses tandis que le contraire signifie souvent la déprime. Je pense que le fait que l’image soit monotone marche bien avec l’extrait car elle est supposée vouloir mourir. De plus, on peut observer que dans cette image, la fille est encerclée de chocolat et il n’y a nulle part où elle peut sortir. On pourrait dire qu’elle est enfermée et encerclée par le chocolat comme une personne dépressive ou déprimée pourrait se sentir emprisonnée par des mauvaises pensées et par la tristesse. Finalement, de la façon dont la fille est habillée et de la façon qu’elle présente le chocolat elle à une allure de travailleuse comme si elle était une caissière qui vend du chocolat. Elle à l’air habitué et tranquille comme si elle faisait ça chaque jour et que c’était rendu une routine. Alors on pourrait aussi dire qu’elle est enfermée dans la routine et la répétition ce qui revient à l’absurdité de la répétition dans le monde dans lequel on vit.

De manière similaire, l’image générée par Midjourney à partir d’une citation d’En attendant Godot, «Voilà l’homme tout entier, s’en prenant à sa chaussure alors que c’est son pied le coupable», amène Anderson à mettre en relation avec l’extrait des éléments visuels proposés par l’intelligence artificielle qui ne semblent pas renvoyer au texte de Beckett. À cet égard, l’élève juge «intéressants» deux éléments dont le lien avec la citation n’est pas explicité dans le portfolio. Le premier concerne la mise en scène d’un personnage amputé, le second la représentation, à son avis peu claire, du pied absent («l’intelligence artificielle ne nous montre pas clairement lequel de ses pieds n’est pas là»). Comme dans l’exemple précédent, l’élève se livre moins à une interprétation de relation texte-image qu’à une interprétation de l’image elle-même. Ainsi, plutôt que de se questionner sur la pertinence des éléments visuels introduits par Midjourney, sans liens apparents avec la citation du texte de Godot, Anderson semble plutôt chercher à comprendre, sans les discuter, les choix interprétatifs du logiciel: «l’intelligence artificielle a décidé que son pied coupable ne devrait juste pas exister». De même, si l’élève n’interroge pas, dans son analyse, le choix de l’intelligence artificielle générative de représenter, en premier plan, une chaussure disproportionnée par rapport à taille du personnage, il propose, en revanche, une interprétation de la couleur utilisée: «La couleur rouge peut dire beaucoup de choses comme comment le soulier est blâmé et coupable». En acceptant de facto la pertinence interprétative de la proposition iconique de Midjourney, non seulement l’élève affranchit cette dernière de l’épreuve de la confrontation au texte, mais, de plus, il justifie lui-même les choix interprétatifs du logiciel en leur conférant de la cohérence et du sens, même s’ils ne semblent pas fondés sur le contenu de la citation.

Figure 3. Image et analyse tirées du portfolio d’Anderson.

Extrait: «Voilà l’homme tout entier, s’en prenant à sa chaussure alors que c’est son pied le coupable» de En attendant Godot.

Dans cette photo le monsieur manque un pied, je trouve que c’est un détail très intéressant car l’intelligence artificielle a décidé que son pied coupable ne devrait juste pas exister. C’est aussi très intéressant comment l’intelligence artificielle ne nous montre pas clairement lequel de ses pieds n’est pas là. L’image nous présente un homme plutôt triste et malheureux, il manque son pied droit ou gauche (c’est pas très clair). Le soulier rouge peut être interprété en étant coupable, mais c’est vraiment le pied qui est coupable même si c’est le monsieur qui blâme son soulier. La couleur rouge peut dire beaucoup de choses comme comment le soulier est blâmé et coupable.

Si, dans ces exemples, le texte de départ parait entièrement ou partiellement occulté dans l’analyse des élèves, dans d’autres productions, la reconfiguration subjective des images et des textes de départ, dont témoignent les justifications, les descriptions et les interprétations des productions de Midjourney, est plus explicitement reconduite à l’extrait.

Ainsi, la description d’une image générée par Midjouney, auquel une autre élève (Parnika) a soumis une citation de La femme qui fuit d’Anaïs Barbeau-Lavalette («Le paysage se déroule et s’éloigne, tu avales tout des yeux tranquillement. Tu sens que tu es à ta place, pour la première fois. Installée dans le mouvement des choses»), révèle que l’élève tente d’établir un lien avec le texte de départ. Parnika souligne la redondance entre des éléments de l’images et certains passages de la citation («la fille regarde calmement dehors»; «voit du champ sans fin qui passe en arrière d’elle») et renvoie à des moments ou des évènements précédents de l’histoire («cette scène nous rappelle aussi de quand Suzanne est venue à Montréal pour la première fois pour son concours d’art oratoire»). Parnika mobilise également des éléments issus aussi bien de son imaginaire et de sa compréhension/interprétation de l’œuvre. Elle fait, par exemple, référence au «soleil (qui est) en train de [se] coucher dehors» — et qu’on ne voit pas pour autant dans l’image —; elle interprète le regard du personnage comme étant orienté vers «l’horizon, vers un futur que personne ne peut prédire» et elle commente son voyage «vers l’inconnu», en affirmant, de manière solennelle, qu’«il n’y a pas de recul, pas de ralentissement». Interprété de manière métaphorique par l’élève, ce voyage du personnage, qui lui rappelle un passage précédent de l’histoire, au cours duquel Suzanne, lors de son premier séjour à Montréal, a découvert «la vraie signification de l’art libre», devient aussi l’occasion d’anticiper des évènements futurs. En effet, Parnika décrit cette nouvelle fuite du personnage comme celle qui lui permettra de «rester temporairement avant de partir de nouveau» et qui lui fera également «découvrir un nouveau milieu qui lui donnera l’inspiration pour créer de l’art». La description de l’image montre, enfin, que l’élève l’analyse au prisme des connaissances sur le genre littéraire et artistique (l’avant-garde automatiste) acquises durant le cours consacré au roman de Barbeau-Lavalette: «On peut voir qu’elle est au milieu de la campagne, et c’est comme tous les autres artistes/automatistes. En effet, la plupart d’entre eux finissent par adopter une vie en campagne pour leur création artistique».

Figure 4. Image et analyse tirées du portfolio de Parnika.

Extrait: «Le paysage se déroule et s’éloigne, tu avales tout des yeux tranquillement. Tu sens que tu es à ta place, pour la première fois. Installée dans le mouvement des choses» de La femme qui fuit.

Dans l’image, la fille (qui peut représenter Suzanne) regarde dehors et voit du champ sans fin qui passe en arrière d’elle. Le Soleil est en train de coucher dehors, et elle est dans ce train qui l’amène vers l’inconnu. Il n’y a pas de recul, pas de ralentissement. La fille regarde calmement dehors. En fait, elle regarde l’horizon — comme écrit au début du roman, Suzanne lève ses yeux et regarde l’horizon, vers un futur que personne ne peut prédire. On peut voir qu’elle est au milieu de la campagne, et c’est comme tous les autres artistes/automatistes. En effet, la plupart d’entre eux finissent par adopter une vie en campagne pour leur création artistique. De plus, cette scène nous rappelle aussi de quand Suzanne est venue à Montréal pour la première fois pour son concours d’art oratoire — elle était dans un train et regardait le paysage qui l’amenait à une ville dans laquelle elle va découvrir la vraie signification de l’art libre. Donc, cette fois, quand elle prend le train de nouveau pour trouver une autre place pour rester temporairement avant de partir de nouveau, c’est comme si elle allait découvrir un nouveau milieu qui lui donnera l’inspiration pour créer de l’art.

Si l’exemple précédent a permis d’établir que Parnika est parvenue facilement à établir des liens entre l’extrait et l’illustration proposée par Midjourney, le logiciel ayant traduit en images quelques éléments de la citation (le paysage qui déroule et s’éloigne; un personnage féminin qui regarde dehors), le travail d’Arthur, quant à lui, montre comment il est possible de trouver une correspondance entre le texte et la production de l’intelligence artificielle, même lorsque celle-ci semble sans lien apparent avec la citation de départ. Ainsi, dans son analyse de l’image générée à partir d’une autre citation issue de La femme qui fuit, «On est allé trop loin, trop vite», l’élève souligne d’emblée «la grande diversité et l’absurdité» des «composant(e)s» de l’illustration fournie par Midjourney, qui représente des «objets n’allant pas du tout ensemble et n’étant pas du tout à leur place». Tentant tout de même d’arrimer la proposition du logiciel au texte de Barbeau-Lavalette, l’élève associe «cet(te) absurdité et ce mélange d’objets» aux sentiments «d’inconfort et de confusion» que Suzanne Meloche devait avoir éprouvés au moment du passage. Pour ce faire, il mobilise sa subjectivité en invoquant, plus spécifiquement, son propre inconfort face à l’ensemble hétéroclite d’éléments indéfinissables qui composent l’image, qu’il compare à celui éprouvé par le personnage du roman de Barbeau-Lavalette. De plus, il interprète le caractère «extravagant» de la production de Midjourney comme la représentation métaphorique du franchissement des frontières de la raison: «Je crois que cela signifie le fait d’être aller trop loin, d’avoir pris un trop gros pas et de s’être retrouvé à quelque part où nous ne sommes pas supposé être». La reprise de l’expression «aller trop loin», présente dans la citation, témoigne de la volonté de l’élève d’interpréter l’image moins pour ce qu’elle évoque en soi que pour ce qu’elle représente du texte qui a déterminé sa génération.

Figure 5. Image et analyse tirées du portfolio d’Arthur.

Extrait choisi: «On est allé trop loin, trop vite» de La femme qui fuit.

Cet extrait m’a marqué parce que j’y trouve beaucoup de vérité quant à la façon dont nous vivons ces jours ci. On se dépêche trop vite pour vivre notre vie et cela peut ruiner notre perception des vraies choses. Mon attente pour l’image reliée à cet extrait est un humain marchant sur un chemin qui a l’air d’aller à l’infini. Par contre, L’image que Midjourney m’a procuré pour cet extrait a été bien différente de ce que je m’attendais. J’ai choisi l’image ci-dessus en particulier car les autres ne représentaient que des grenouilles et une maison en champignons, deux aspects qui ne m’ont pas marqué. L’image que j’ai choisie m’a marqué due à la grande diversité et à l’absurdité de ses composants. Cette absurdité et ce mélange d’objets n’allant pas du tout ensemble et n’étant pas du tout à leur place me donne un sentiment d’inconfort et de confusion, les mêmes sentiments que Suzanne Meloche ressentait lorsqu’elle a dit la phrase que j’ai choisie. Aussi, les composants de cette image m’ayant été procurée sont tout droit sortie d’un imaginaire extravagant. Je crois que cela signifie le fait d’être aller trop loin, d’avoir pris un trop gros pas et de s’être retrouver à quelque part où nous ne sommes pas supposé être, ou nous ne savons pas la façon dont les choses marchent.

3.2. Analyse des images produites par Midjourney: quelles modalités de traitement de l’extrait? 

Après avoir examiné les attentes de représentation des élèves vis-à-vis de Midjourney ainsi que leurs analyses des productions retenues, il convient de s’arrêter sur les images produites par le logiciel d’intelligence artificielle, afin d’identifier les modalités du traitement des informations textuelles opérées par la machine. Quelles formes de collaboration, de redondance ou de disjonction iconotextuelles (Van der Linden, 2006; 2008; Nikolajeva et Scott, 2006) sont mises en œuvre par l’intelligence artificielle générative? Quels éléments de l’extrait semblent retenus dans chaque cas?

Nous avons repéré et distingué trois types de rapports textes-images. Le premier s’apparente à la redondance, qui, selon la définition de Van der Linden (2006), implique une congruence, totale ou partielle, entre les informations portées par les textes et par les images. Dans cette catégorie figure, par exemple, l’illustration proposée par Midjourney à Parnika à partir de la citation de La femme qui fuit «Le paysage se déroule et s’éloigne, tu avales tout des yeux tranquillement. Tu sens que tu es à ta place, pour la première fois. Installée dans le mouvement des choses». La représentation d’une femme, le regard plongé dans le panorama qui défile devant elle, véhicule en effet les mêmes informations que l’extrait, dont elle reprend plusieurs éléments: le personnage représenté est en effet une femme (ce qui n’est signalé, dans l’extrait, que par l’accord en genre du participe passé «installée»), en mouvement, face à un paysage qu’elle observe «tranquillement» (dans l’image, la jeune femme contemple un paysage à travers la fenêtre d’un train en marche).

Le deuxième type de rapport textes-images identifiable dans les propositions de Midjourney relève de la collaboration ou de la complémentarité. Dans cette configuration, selon la définition de Van der Linden (2006), deux contenus, partiellement discordants, «travaillent conjointement en vue d’un sens commun» (p. 120). Cette collaboration, que l’on retrouve dans plusieurs propositions de l’intelligence artificielle, se fonde généralement sur la reprise d’un seul élément de l’extrait et est accompagnée de l’introduction de personnages, de lieux ou de représentations d’actions qui ne figurent pas dans le texte de départ. Ainsi, dans l’image issue de la citation de Gary «Quand on a envie de crever, le chocolat a encore meilleur gout que d’habitude», l’intelligence artificielle extrait du texte la référence au chocolat, mais elle ajoute, dans l’image, le personnage d’une petite fille, assez élégamment vêtue, qui le décore. De la même manière, dans la production générée à partir de la citation de Beckett «Voilà l’homme tout entier, s’en prenant à sa chaussure alors que c’est son pied le coupable», on retrouve les éléments «homme» et «chaussure». Cependant, l’image du personnage privé d’un pied résulte d’une intervention du logiciel, basée peut-être sur la tentative de restituer la mention d’un homme «tout entier» qui s’attaque à la partie de soi qu’il estime coupable. On observe le même type de congruence partielle entre les informations véhiculées par les textes et par les images dans celle générée à partir de la citation de La vie devant soi: «C’est toujours dans les yeux que les gens sont les plus tristes». D’une part, la proposition de l’intelligence artificielle semble fondée sur la reprise de quelques éléments de l’extrait, et notamment sur la référence aux «yeux» et à leur capacité à laisser transparaitre la tristesse des gens. D’autre part, elle introduit des éléments qui ne sont pas évoqués par le texte et qui, comme nous l’avons vu, n’appartiennent pas au passage en question. Dès lors, les larmes, tout comme la caractérisation d’un personnage féminin, sont une réélaboration de Midjourney, qui se trouve à faire dire quelque chose de plus ou de légèrement différent (Eco, 2003) au texte de Gary.

Le troisième type de rapport textes-images identifiable dans le corpus d’images consignées dans les portfolios peut être associé à la syllepse. Définie comme un cas extrême de contrepoint (Nikolajeva et Scott 2006), elle désigne la disjonction entre les informations textuelles et celles véhiculées par l’image. L’image générée par Midjourney à partir de la citation de La femme qui fuit, «On est allé trop loin, trop vite», en constitue un parfait exemple, car l’écart entre ce qu’exprime le texte de départ et ce que représente l’image générée par l’intelligence artificielle est maximal. Cette dernière, en effet, donne à voir une maison entourée de créatures fantastiques, réduites à des bouches et des yeux exorbités, guettant l’horizon ou rejetant une pluie de petits objets, autour d’une maison près de laquelle apparait un homme à l’air résigné.

4. Discussion des données

4.1. Du texte de départ à la génération d’images

4.1.1. Du texte de départ à la génération d’images: attentes littéraires et attentes technologiques

L’étude des portfolios révèle que les attentes de transposition iconique des élèves reposent essentiellement sur la reprise de quelques éléments de l’extrait qui ont attiré leur attention. Iels espèrent notamment que Midjourney puisse générer des images qui expriment une redondance, ou du moins une forme de collaboration, avec les textes. Dès lors, iels retiennent, pour leurs analyses interprétatives, les productions qu’iels jugent les plus conformes à la citation et, lorsque l’intelligence artificielle leur propose des images très éloignées de l’univers des extraits, iels cherchent à rétablir des liens avec les textes en revenant sur leurs émotions: ainsi, si Parnika sélectionne l’image qui «décrit le mieux le passage» et Maxence écarte celles qui «correspondent moins à l’extrait», Arthur en conserve une qu’il juge absurde et recrée un lien avec le texte de Barbeau-Lavalette en assimilant son «inconfort» pour la proposition de Midjourney à celui que le personnage éprouve dans le passage cité. Cette attente d’une certaine congruence entre des éléments de la citation et la transposition iconique s’accompagne d’une autonomisation de l’extrait par rapport au contexte. Que l’extrait présente des contenus plus abstraits («aller trop loin, trop vite») ou des référents plus concrets (chocolat, yeux, etc.), les attentes ne sont pas fondées sur la citation et son contexte, mais considérées de manière relativement indépendante. Si la citation offre des référents concrets (par exemple «chocolat»), ils sont réinvestis dans la formulation des attentes sous la forme d’une reprise mot-à-mot; si, en revanche, l’extrait présente des contenus plus abstraits («aller trop loin, trop vite»), les élèves introduisent de nouveaux éléments («un humain marchant sur un chemin qui a l’air d’aller à l’infini»), qui ne renvoient que partiellement au texte de départ.

On constate, de plus, une faible valorisation de la polysémie de l’image et de sa capacité potentielle à enrichir les textes de départ, à en expliciter les non-dits ou bien à développer des narrations parallèles. Un seul élève, en effet, choisit parmi les différentes propositions de Midjourney l’image qui, à son avis, peut se prêter à de multiples interprétations («J’ai choisi cette image car il y a plusieurs façons de l’interpréter», Extrait du portfolio de Maxence).

Par ailleurs, la formulation d’attentes impliquant une mise à l’épreuve des potentialités — créatives ou technologiques — du logiciel est plutôt rare: dans un cas seulement, on trouve explicitée la volonté d’interroger la capacité de Midjourney à générer une image à partir d’éléments textuels considérés comme difficiles à représenter pour un être humain. Si la nouveauté de l’expérience et de l’exercice d’interaction avec l’intelligence artificielle a certainement conditionné les attentes des élèves ainsi que leurs manières de les formuler, nous pouvons néanmoins considérer que l’on s’attend avant tout de Midjourney qu’il sache lire et comprendre le texte, puis le transposer en une image qui mobilise et réinvestit de manière cohérente les éléments jugés saillants.

Cette recherche d’une adhésion à la citation détermine peut-être la relative imprécision des indications concernant la représentation des personnages ou des lieux de l’extrait. En effet, les attentes visuelles des élèves sont généralement exprimées de manière sommaire, avec peu de références aux images mentales élaborées au moment de la lecture. On peut dès lors supposer que les élèves ne s’attendent pas à ce que l’intelligence artificielle soit en mesure de s’arrimer à leur interprétation ni qu’elle puisse être utilisée pour donner à voir les reconfigurations subjectives qu’iels opèrent en lisant. Cela pourrait également expliquer le fait que les élèves ne cherchent pas à obtenir des images plus proches de leurs représentations mentales en donnant des indications supplémentaires à Midjourney. Leur démarche d’interaction avec l’intelligence artificielle se limite à la réinsertion de la citation et à l’attente d’une nouvelle proposition, plus conforme à la lettre du texte. Dans cette perspective, Midjourney serait considéré davantage comme une machine de traduction intersémiotique, dont l’efficacité s’évalue en fonction de la cohérence des articulations textes-images proposées, que comme une machine d’appropriation littéraire (Shawky-Milcent, 2014).

4.1.2. Du texte de départ à l’analyse des images: analyses iconotextuelles à géométrie variable

L’analyse des images retenues dans les portfolios montre que les élèves tendent à décrire et à interpréter les propositions de Midjourney de manière décorrélée de l’extrait. Les cinq travaux examinés montrent qu’une élève seulement, Parnika, s’attache à associer les éléments visuels proposés par le logiciel d’intelligence artificielle à la citation, en identifiant, dans le portrait de la jeune fille dans le train, des liens avec l’attitude, l’environnement et les actions du personnage de Suzanne. Les autres élèves se livrent, en revanche, à des analyses fortement descriptives, qui semblent oublier le texte — et ce même si leurs interprétations initiales mobilisaient de manière assez précise des éléments de la citation ou renvoyaient, de manière plus large, aux thématiques de l’œuvre. Ainsi, Seynoon, qui avait fait référence, dans son appréciation critique de l’extrait de Gary, à la question de la marginalité ainsi qu’à la solitude et à la vieillesse des personnages du roman, décrit ce «visage aux yeux qui pleurent dans une lumière douce (…) et introspective, invitant à la contemplation» sans en interroger la cohérence par rapport à la citation. De manière similaire, Anderson ne relève pas, dans son analyse de la symbolique de la couleur du soulier et la représentation d’un homme sans pied, l’introduction d’éléments absents de l’univers narratif de Beckett. Maxence, de son côté, analyse longuement la monochromie de l’image, l’aspect de la petite fille représentée et sa position au milieu de centaines de petits chocolats à l’aune de thématiques qui n’appartiennent pas à l’œuvre citée. Il semble ainsi que l’image générée par la machine se superpose au texte, s’interpose dans le processus de réception de celui-ci et lui fasse littéralement écran, en amenant les élèves à réagir uniquement à ce qu’ils voient.

Or, si l’exercice de la citation, qui implique d’isoler et de décontextualiser des phrases marquantes, pourrait avoir favorisé l’oubli du texte, on peut également supposer que les élèves acceptent les productions de Midjourney comme étant des formes de concrétisation imageante de la machine, c’est-à-dire comme le résultat d’un processus de figuration des personnages, des lieux et des évènements d’un récit (Langlade 2006), et qu’iels recherchent une liaison systématique, bien que non nécessairement visible, avec l’extrait. Par exemple, dans l’analyse d’Arthur, qui a constaté l’absurdité de la proposition fantastique de Midjourney par rapport à la citation de La femme qui fuit («On est allé trop loin, trop vite»), le lien avec l’extrait est justifié par l’adhésion de l’élève aux émotions du personnage: en effet, son «inconfort», qu’il rattache à l’égarement supposé du personnage dans le texte, est perçu comme un signe de l’absurdité de l’image et, donc, de son adéquation avec la citation. L’image, superposée au texte, enclenche un discours sur l’œuvre qui permet de raconter ses émotions, sa propre lecture de l’image. Dès lors, pour Arthur, tout comme pour ses camarades, le discours sur le texte est reconfiguré par une analyse de l’image qui devient l’occasion pour parler de soi, de ses préoccupations et de sa vision du monde. Ainsi, si les élèves ne décèlent pas les incohérences entre les textes et les images ou, du moins, s’iels ne semblent pas particulièrement gêné·es par les écarts constatés, c’est parce que l’image se trouve à être interprétée à la place du texte.

4.2. Rapports textes-images: ce que Midjourney fait à l’extrait

Que fait donc l’intelligence artificielle générative aux extraits? Comment les réélabore-t-elle et que peut-on dire de sa démarche de transposition?

On constate tout d’abord que Midjourney n’est pas en mesure d’identifier la citation ni d’en restituer le cotexte. L’introduction, dans presque toutes les images, de personnages, d’éléments et de décors étrangers aux textes de départ montre, en effet, que le traitement du texte n’implique pas une consultation de bases de données littéraires ni l’exploitation d’informations relatives à l’œuvre, à son auteur·rice ou à son époque. À l’instar des élèves, l’intelligence artificielle générative ne reconnait pas la citation comme telle, mais la traite au contraire comme toute commande textuelle (ou prompt), en isolant des mots et des phrases clés (Oppenlaender 2023). Ainsi, d’une part, l’intelligence artificielle procède à la transposition en images d’indices sémantiques plus ou moins facilement identifiables, d’autre part, elle propose des illustrations assez proches les unes des autres d’un point de vue graphique et visuel, malgré les différences génériques et stylistiques des textes de départ.

Par ailleurs, dans sa démarche transpositive, Midjourney semble générer plus aisément des images ayant une relation de symétrie avec les textes lorsque ceux-ci contiennent des références à des éléments concrets, tandis qu’il propose des associations moins immédiates lorsque la citation revêt une valeur aphoristique ou convoque des concepts abstraits, des états d’âme ou des émotions. Dans ce cas, l’intelligence artificielle procède soit en substituant des images plus concrètes à des références abstraites, le chagrin étant, par exemple, traduit par l’image d’une jeune fille en pleurs, soit en introduisant de nouveaux éléments, plus ou moins éloignés de la citation et de son cotexte. Ces interventions peuvent être reliées aux textes de départ par le biais de métaphorisations, qui permettent, par exemple, de reconnaitre dans le personnage sans pied représenté par Midjourney la condition de l’«homme tout entier» de Beckett, ou bien elles peuvent être considérées comme des réécritures iconiques à part entière. Par exemple, l’image proposée à partir de la citation de La femme qui fuit «On est allé trop loin, trop vite» et, dans une moindre mesure, celle issue de la citation de Gary «Quand on a envie de crever, le chocolat a encore meilleur gout que d’habitude» témoignent de ces procédés de traitement des informations textuelles «magiques» (Oppenlaender 2023), qui ne permettent pas d’identifier les indices sémantiques exploités par la machine, mais qui «introduisent un caractère aléatoire dans l’image, pouvant conduire à des résultats surprenants» (Oppenlaender 2023, notre traduction). Il semblerait ainsi que lorsque l’intelligence artificielle ne parvient pas à isoler et à transposer de manière symétrique des indices textuels, elle insère des variables impondérables, qui témoignent d’une forme de créativité algorithmique.

Conclusion

Bien que le caractère exploratoire de notre recherche et la nouveauté de l’expérience pour les élèves n’invitent pas aux généralisations, il nous semble que les propos des participant·es, leurs attentes et analyses puissent témoigner de manières de penser et construire le sens produit par une intelligence artificielle dans le cadre d’une activité de réception/production littéraire.

Tout d’abord, nous avons vu que les images générées par l’intelligence artificielle sont traitées comme une transposition iconique des citations et qu’elles sont rarement remises en question par rapport au texte de départ ou à son cotexte. Analysées à la place du texte, elles sont, au contraire, regardées et interprétées en acceptant d’emblée l’ensemble d’associations et reconfigurations imageantes, plus ou moins éloignées des citations, proposées par Midjourney.

Dans cet exercice, qui les mène parfois à s’éloigner de l’horizon littéraire des textes de départ, les élèves révèlent un autre horizon d’attente, d’ordre technologique, qui les conduit à projeter, envisager ou fantasmer les capacités et les limites de l’intelligence artificielle. Les références à la transposition d’éléments textuels et le nombre relativement limité d’indications concernant la capacité de Midjourney à associer des indices sémantiques pour créer des images poétiques, imagées, décalées ou au contraire fidèles au texte de départ montrent que, sans un enseignement des manières d’interagir avec les intelligences artificielles, les élèves s’attendent avant tout à ce que le logiciel sache bien lire, comprendre et transposer les textes en images plutôt qu’intervenir de manière créative, en proposant de nouveaux éléments, des réinterprétations ou des reconfigurations stylistiques particulières.

Et pourtant, les images produites par Midjourney montrent que l’intelligence artificielle opère des remaniements profonds du texte de départ, en proposant, parfois, des univers graphiques dans lesquels aucun élément des citations n’est identifiable. D’où viennent ces images? Sont-elles l’expression d’une manière — subjective — de la machine de concevoir les thèmes des extraits sélectionnés pour l’article, soit la tristesse, le besoin d’un coupable, le constat d’être allé trop loin, trop vite? Peut-on considérer la combinaison opaque d’indices sémantiques comme une forme de réécriture créative des extraits? Peut-on comparer l’analyse que Midjourney fait de la citation, décorrélée de l’extrait, à celle qu’en font les élèves? Les propositions visuelles de Midjourney forcent-elles les élèves à construire des relations sémantiques qui déforment, voire dénaturent le sens du texte à l’origine de la commande, ou encore leur propre concrétisation imageante? Dans un contexte où les élèves seraient davantage formé·es aux moyens, aux processus et aux formes d’interaction avec une intelligence artificielle, verrions-nous davantage apparaitre leur propre subjectivité, mise en jeu avec celle anticipée de la machine? Si ces questions ne semblent pas, pour le moment, avoir de réponse, elles nous semblent tout à fait pertinentes en contexte didactique, aussi bien dans une perspective de développement de compétences littéraires que littéraciques numériques.

Bibliographie

Andrejevic, Mark (2020), Automated Media, New York et Abingdon, Routledge.

Bensamoun, Alexandra (2020). «Ceci est… une œuvre d’art! La question des créations générées par une intelligence artificielle», L’Observatoire, 55 (1), p. 104-106.

Beller, Jonathan (2021), The World Computer: Derivative Conditions of Racial Capitalism, New York, Duke University Press, [en ligne].

Chomsky, Noam, Roberts, Ian et Watumull, Jeffrey (2023), «The false promise of ChatGPT». The New York Times, 8 mars 2023, [en ligne].

Collin, Simon et Marceau, Emmanuelle (2021). L’intelligence artificielle en éducation: enjeux de justice » Formation et profession, 29 (2), p. 1–4, [en ligne].

Dusi, Nicola (2000), «Per una ridefinizione della traduzione intersemiotica», In N. Dusi et S. Nergaard (dir.). Sulla traduzione intersemiotica. Versus, n° 85-87, p. 3-54. 

Eco, Umberto (2003), Dire quasi la stessa cosa. Esperienze di traduzione, Milano, Bompiani.

Fernandez, Perter (2022), «Technology behind text to image generators, Library Hi Tech News», n° 39(10), p. 1-4 [en ligne].

Ganascia, Jean-Gabriel (2017). «Une machine ne peut pas être créative.», In J. Ganascia (dir.), Intelligence artificielle: vers une domination programmée?, Le Cavalier Bleu, p. 107-115.

Gefen, Alexandre (dir.) (2023), Créativités artificielles. La littérature et l'art à l’heure de l'intelligence artificielle, Paris, Presses du réel. 

Gozalo-Brizuela, Roberto et Garrido-Merchán, Eduardo (2023), «ChatGPT is not all you need. A state of the art. Review of large generative AI models», AI Frameworks Discussion of Abeba Birhane’s Algorithmic Injustice and Social Impact Articles, 1 (1), [en ligne].

Jovanović Mladjan et Campbell, Mark (2022), «Generative Artificial Intelligence: Trends and Prospects», Computer, 55 (10), p. 107-112. (DOI: 10.1109/MC.2022.3192720)

Kiepas, Andrzej (2020), «Human Subjectivity in the Dawn of Digital Society», International Journal of Pedagogy Innovation and New Technologies, 7 (1), p. 31-38.

Korzynski, Pawel, Mazurek, Grzegorz, Krzypkowska, Pamela et Kurasniski, Artur (2023), «Artificial intelligence prompt engineering as a new digital competence: Analysis of generative AI technologies such as ChatGPT», Entrepreneurial Business and Economics Review, 11 (3), p. 25‐37, [en ligne].

Langlade, Gérard (2006), «L’activité fictionnalisante du lecteur». Modernités 23. Les enseignements de la fiction, in M. Braud, B. Laville et B. Louichon (dir.), p. 163-176.

Le Goff, François et Fourtanier, Marie-Josée (dir.) (2017), Les Formes plurielles des écritures de la réception. Volume I: Genres, espaces et formes. Volume II: Affects et temporalités, Namur, Presses universitaires de Namur, coll. «Diptyque».

Liu, Vivian et Chilton, Lidia B. (2022), «Design guidelines for prompt engineering text-to-image generative models», CHI ’22: Proceedings of the 2022 CHI Conference on Human Factors in Computing systems, New York, Association for computing machinery. 

Lou, Renze, Zhang Kai et Yin Wenpeng, (2023), «Is prompt all you need? No. A comprehensive and broader view of instruction learning», arXiv, [en ligne].

McCormack, Jon, Gambardella, Camilo Cruz, Rajcic, Nina, Krol, Stephen, James, Llano, Maria Teresa et Yang Men (2023), «Is writing prompts really making art?», In Artificial Intelligence in Music, Sound, Art and Design, S. Adkins, P. Sarmento et M. Barthet (dir.), Cham, Springer, p. 196-211 [en ligne].

Nikolajeva, Maria et Scott, Carole (2006), How picturebooks work, New York, Routledge. 

Oppenlaender, Jonas (2023), «A taxonomy of prompt modifiers for text-to-image generation», Behaviour & Information Technology, [en ligne].

Roberge, Jonathan et Lebrun, Tom (2021). «BERT, GPT-3, Timnit Gebru et nous: l’intelligence artificielle à la conquête du langage», Sociologie et sociétés, 53 (1-2), p. 235-257, [en ligne].

Robinson, David G. (2022), Voices in the Code: A Story about People, Their Values, and the Algorithm They Made. Russell Sage Foundation [en ligne].

Shawky-Milcent, Bénédicte (2014), L’Appropriation des œuvres littéraires en classe de seconde, Thèse de doctorat soutenue à l’université de Grenoble.

Van der Linden, Sophie (2006), Lire l’album, Le Puy-en-Velay, L’Atelier du poisson soluble.

Van der Linden, Sophie (2008). «L’album, le texte et l’image», Le français aujourd’hui, 161 (2), p. 51-58.

Velkovska, Julia et Relieu, Marc (2021). «Pour une conception "située" de l’intelligence artificielle. Des interactions hybrides aux configurations socio-techniques», Réseaux, 229 (5), 2021, p. 215-229.


  • 1. S’appuyant sur l’apprentissage automatique par réseau neuronal, les générateurs texte-images auxquels nous nous intéressons dans cet article sont entrainés à identifier des objets de références (des images) et des informations concernant le sens de l’image pour les humains (Fernandez, 2022). Progressivement, l’intelligence artificielle introduit des changements aléatoires, dits bruits, qui se superposent à l’image originale. Elle tente alors de recréer l’objet initial, d’une part en ajoutant des pixels aléatoires, d’autre part en cherchant à vérifier que la nouvelle image correspond au sens porté par l’image originale.
  • 2. Les élèves disposaient de tablettes tactiles individuelles et d’ordinateurs qu’iels avaient l’habitude d’utiliser aussi bien en français que dans d’autres contextes disciplinaires.
  • 3. Le corpus comprenait, entre autres, un roman (La femme qui fuit de Barbeau-Lavalette), des textes théatraux (En attendant Godot de Beckett) et poétiques (notamment des poèmes de Gauvreau et Méloche et des chansons d’artistes rap engagés, dont Loco Locass) ainsi que deux récits numériques (Boum! des Inéditeurs et Déprise de Serge Bouchardon).
  • 4. Propos issus des documents de planification produits par l’enseignante
  • 5. L’élève renvoie à l’extrait suivant: «Le paysage se déroule et s’éloigne, tu avales tout des yeux tranquillement. Tu sens que tu es à ta place, pour la première fois. Installée dans le mouvement des choses» de La femme qui fuit.
  • 6. Nous retranscrivons les propos des élèves tels qu'ils ont été livrés dans les portfolios, sans amender d’éventuelles erreurs.
  • 7. L’élève renvoie à l’extrait suivant: «Quand on a envie de crever, le chocolat a encore meilleur gout que d’habitude» de La vie devant soi.
  • 8. L’élève renvoie à l’extrait suivant: «C’est toujours dans les yeux que les gens sont les plus tristes» de La vie devant soi.

Pour citer l'article

Eleonora Acerra, Sylvain Brehm, Nathalie Lacelle, "Représenter sa réception d’un texte littéraire en images avec Midjourney: analyse des attentes des élèves et des productions générées par l’intelligence artificielle générative", Transpositio, n° 7 Le texte littéraire à l'épreuve de l'image, 2024

http://www.transpositio.org/articles/view/representer-sa-reception-d-un-texte-litteraire-en-images-avec-midjourney-analyse-des-attentes-des-eleves-et-des-productions-generees-par-l-intelligence-artificielle-generative