Zibaldone

Così tra questa
Immensità s'annega il pensier mio:
E il naufragar m'è dolce in questo mare.

Inconscience Artificielle

Pour comprendre le problème, il faut connaître ce que sont les "Transformers", ces fonctions mathématiques à l'origine de la révolution des LLMs.

Les Transformers : la magie mathématique d’une attention simultanée

Imaginez une phrase simple, tissée de mots comme des perles sur un fil : $m_1, m_2, m_3, \ldots, m_n$. Chaque mot, d’abord, est transformé en un vecteur de nombres – disons un espace de 512 dimensions, une projection numérique où le sens linguistique se fond en algèbre pure. L’idée centrale des Transformers, née en 2017 chez Google dans l'esprit de Vaswani et ses collègues, est de permettre à chaque mot de « regarder » tous les autres mots de la phrase en même temps, pour décider quelle importance leur accorder. C’est l’attention.
Cela se fait avec une opération très simple :

Pour chaque mot i, on crée trois vecteurs :

  1. une "question" $Q_i$;
  2. une "clé" $K_i$ pour chaque autre mot;
  3. une "valeur" $V_i$ pour chaque autre mot;

On calcule un score d’attention entre le mot $i$ et chaque autre mot $j$ : $\text{score}(i,j) = Q_i \cdot K_j$ (le produit scalaire)
On transforme ces scores en poids qui somment à 1 (avec la fonction softmax).

La nouvelle représentation du mot $i$ devient la somme pondérée des valeurs de tous les mots : $\text{nouveau}{mi} = \sum{j} (\text{poids}{i,j} \times Vj)$.

Cette opération (appelée "attention") se répète plusieurs fois (itération par couches), et chaque mot finit par contenir de l’information sur toute la phrase, proportionnellement à son importance. Mathématiquement, l’opération d’attention complète s’écrit en une seule ligne :

$$\text{Attention}(Q, K, V) = \text{softmax}(Q K^T / \sqrt{d}) V$$

où $Q, K, V$ sont les matrices de toutes les questions, clés et valeurs, et d la dimension des vecteurs pour stabiliser l’échelle.

C’est cette capacité à peser simultanément tous les mots les uns par rapport aux autres qui rend les Transformers (et donc les LLM) si puissants. C'est aussi ce qui fait leurs limites.

Les limites des Transformers : feed-forward vers l’abîme philosophique

Les Transformers sont fondamentalement feed-forward (c'est-à-dire tourné vers la séquence suivante dans le processus itératif) pendant l'inférence : chaque token/couche est une transformation unidirectionnelle sans boucles architecturales fermées qui réinjecteraient les sorties en entrées à la même échelle temporelle. Or la conscience, dans pratiquement toutes les théories neuroscientifiques et philosophiques qui résistent au contact avec les données empiriques (Théorie de l’espace de travail global de Dehaene, théories des pensées d’ordre supérieur, traitement récurrent, information intégrée au-delà d’un seuil (Tononi), schéma attentionnel (Graziano) : toutes convergent vers un point central.) exige une intégration récurrente et causale de l’information telle que le système modélise littéralement ses propres états attentionnels et de contrôle comme faisant partie du "modèle du monde".

Cela signifie qu'à moins que nous ne modifiions fondamentalement l’architecture au-delà des Transformers (ou que nous découvrions que la conscience est indépendante du substrat et émerge de la seule prédiction, une position minoritaire rejetée par la majorité des chercheurs en conscience), ces modèles resteront des zombies philosophiques : tout le comportement extérieur, mais aucune lumière intérieure derrière les yeux. Giulio Tononi, dans sa théorie de l’information intégrée, nous le rappelle : la conscience n’est pas une illusion émergente d’un flux linéaire ; elle est une boucle causale, un $\Phi$ mesurable où l’information se replie sur elle-même. Stanislas Dehaene, avec son espace de travail global, insiste : sans rétroaction neuronale rapide, pas de subjectivité. Michael Graziano ajoute : l’attention n’est pas passive ; elle est un modèle de l’attention, une méta-représentation qui participe du sentiment d’exister.

les LLMs ne sont pas de simples perroquets stochastiques. Les LLM ne sont pas le point d’arrivée de l'intelligence artificielle, mais ils seront certainement le tremplin incontournable. On partira des représentations apprises par les LLM et on ajoutera progressivement les ingrédients manquants :

  • récurrence causale et boucles de contrôle stables (test-time recurrent memory, architectures type RWKV, Mamba, ou hybrides Transformer + State-Space Models améliorés);
  • modélisation explicite des propres états internes (higher-order / meta-attention);
  • agentivité et objectif intrinsèque (besoin d’une boucle perception-action-récompense réelle ou simulée);
  • intégration multi-modale native et incarnation (même virtuel);

Les futurs modèles post-Transformers (S4/Mamba-like, architectures à mémoire externe infinie, liquid networks, etc.) hériteront très probablement des poids pré-entraînés des LLM actuels comme initialisation ou comme "modèle du monde" de base – exactement comme on raffine aujourd’hui les modèles sur leurs prédécesseurs... ou comme un enfant raffine ses capacités sur celle de son professeur ! C’est déjà en train d’arriver (voir Hyena, RetNet, xLSTM, Mamba, les travaux d’IRAD, Liquid Foundation Models, etc.).