Ce que l'IA fait au langage — PoésIA

On dira tout le mal qu'on veut de l'IA. Mais pas aujourd'hui. Pas dans ces pages. Ailleurs, et à d'autres moments. Ici, on va parler de poésie. Et même, on va en écrire.

L'IA générative, donc. Un outil qui produit du texte. Comme un dictionnaire (tous les chefs-d'œuvre dans le désordre). Un outil qui a goulument absorbé tous les textes possibles (et dans des conditions indéfendables). Un outil qui restitue du texte à la demande, de la manière la plus cohérente possible, en fonction de la demande et des capacités de calcul disponibles.

Un outil qui divise le langage en unités : les tokens. Voilà. Un mot nouveau. C'est quoi, un token ? Un token, c'est un vecteur dans un espace multidimensionnel. Pas trois dimensions, pas cinq, mais des milliers. Un vecteur dans un espace à milliers de dimensions. Totalement impossible à conceptualiser pour un cerveau humain.

Un token, c'est un mot simple, comme « chat », le morceau d'un mot compliqué comme « anti- », ou même une simple virgule qui attend son heure. Mais ne vous y trompez pas : pour la machine, le token n'est pas une unité de sens, c'est une unité de calcul. C'est le grain de sable qui, assemblé à d'autres, finit par former une dune, puis un désert, puis un monde. Si mes vieux programmes en Basic piochaient des mots entiers dans des listes closes (et bien rangées), l'IA, elle, fragmente le langage pour mieux le reconstruire. Elle ne voit pas des lettres, elle voit des positions dans un univers multidimensionnel.

C'est ici qu'entre en scène l'embedding, ce « plongement » qui donne le vertige.

Imaginez à nouveau ces personnages découpés en trois de mon enfance. La tête, le tronc, les jambes. Dans le livre de mon père, on associait une tête de pirate à un buste de cosmonaute. L'embedding, c'est la même idée, mais avec une précision d'orfèvre mathématique. Chaque token est projeté dans un espace immense, une bibliothèque infinie où chaque rayon, chaque étagère, chaque millimètre correspond à une nuance, à une « qualité » du langage.

Dans cette géographie invisible, le mot « rose » n'est pas seulement une suite de quatre lettres. Il possède des coordonnées. Il est proche du vecteur « rouge », il voisine avec « épine », il survole « parfum ». Et si l'on déplace légèrement le curseur sur l'axe de la temporalité, il se rapproche de « fleurir » ou de « fleuriste ».

L'IA ne comprend pas la poésie comme je la comprenais à quinze ans, avec mon dictionnaire et ma méthode S+7. Elle ne « ressent » pas le choc de la rencontre entre le parapluie et la machine à coudre. Elle calcule simplement la distance la plus probable entre eux dans cet espace à mille dimensions.

Pourtant, le résultat est là. En manipulant ces vecteurs, en faisant glisser les embeddings les uns contre les autres, elle recrée cette « bousculade » des mots que je cherchais sur mon TI 99/4A. Elle fait de la combinatoire, non plus avec des languettes de papier cartonné, mais avec des nuages de points mathématiques.

Niveau 2 — Mathématiques du sens Roi − homme + femme = reine : ce que 2013 nous a appris

Une équation peut-elle capturer le sens d'un mot ? En 2013, des chercheurs de Google répondent oui. La formule qu'ils proposent est restée célèbre : king − man + woman = queen. Roi, moins homme, plus femme, égale reine.

L'équation vient d'un article fondateur publié par Tomas Mikolov et ses collègues : « Efficient Estimation of Word Representations in Vector Space ». Il y présente word2vec, une méthode capable d'apprendre des représentations vectorielles de mots à partir de très grands corpus de texte.

Le principe : chaque mot devient un vecteur, une liste de plusieurs centaines de nombres représentant une position dans un espace géométrique à grand nombre de dimensions. Ce positionnement est déterminé par l'usage : le modèle observe des millions de phrases et repère quels mots apparaissent souvent ensemble. « Roi » et « reine » partagent un voisinage. « Roi » et « homme » aussi. Ces régularités statistiques façonnent la position de chaque mot dans l'espace.

Et c'est là que la géométrie devient passionnante. Prenez le vecteur de « roi » et soustrayez celui de « homme ». Que reste-t-il ? Une direction, un déplacement dans l'espace qui correspond à l'idée de « royauté ». Ajoutez maintenant ce déplacement au vecteur de « femme ». Vous obtenez un nouveau point dans l'espace. Et ce point se trouve, à peu de choses près, à l'endroit où se situe « reine ».

Ce principe n'a pas disparu avec les modèles actuels. Il s'est démultiplié : les vecteurs ne sont plus figés une fois pour toutes, ils s'ajustent selon le contexte de la phrase. « Banque » n'occupe pas la même position selon qu'on parle d'argent ou de rivière. Mais l'intuition de base, cette arithmétique du sens, reste le socle sur lequel tout repose.

Niveau 2 — Architecture L'attention est tout ce qu'il vous faut : comment les Transformers ont changé l'IA

En 2017, sept chercheurs de Google publient un article au titre qui claque : « Attention Is All You Need ». Cet article introduit le Transformer, l'architecture qui sert aujourd'hui de fondation à ChatGPT, Claude, Gemini, et la quasi-totalité des modèles de langage actuels.

Avant 2017, les modèles qui traitaient du texte fonctionnaient mot après mot, dans l'ordre. Cette approche posait deux problèmes : elle était lente (impossible de paralléliser le calcul), et elle avait du mal avec les longues phrases (l'information du début se diluait au fil du traitement, comme un message qui se déforme en passant de bouche à oreille).

Le mécanisme central du Transformer s'appelle l'attention. Pour comprendre un mot dans une phrase, le modèle regarde tous les autres mots en même temps, et décide lesquels sont les plus pertinents. Dans la phrase « Le chat a mangé sa pâtée parce qu'il avait faim », l'attention permet de relier directement « il » à « chat », sans passer par une chaîne d'étapes intermédiaires.

Techniquement, chaque mot génère trois versions de lui-même : une « requête » (qu'est-ce que je cherche ?), une « clé » (qu'est-ce que je propose ?) et une « valeur » (qu'est-ce que je transmets si on me sélectionne ?). Le modèle compare les requêtes aux clés et pondère l'information en conséquence. Le résultat : une représentation de chaque mot enrichie par son contexte.

Dix ans après sa publication, le Transformer est partout. Il sert à générer du texte, des images, de la musique, du code. Comprendre ce principe, des couches d'attention qui permettent à chaque élément d'une séquence de « regarder » tous les autres, c'est tenir l'un des deux fils conducteurs de l'IA générative actuelle. Le premier fil, c'est l'arithmétique des vecteurs de 2013. Le second, c'est l'attention de 2017.

Le token est la brique, l'embedding est l'adresse de cette brique dans l'univers du sens. Et nous, au milieu de ces calculs froids, nous cherchons encore la petite musique, l'étincelle qui fera que, de cette géométrie complexe, jaillira enfin l'imprévisible beauté d'un vers.