Depuis l’émergence des Large Language Models (LLMs), une question s’est révélée aussi fascinante que troublante: les intelligences artificielles peuvent-elles un jour développer une véritable conscience? Non pas une simple imitation intelligente du comportement humain, mais une subjectivité authentique, une expérience intérieure? La réponse dépend largement de l’architecture sous-jacente de ces systèmes et de ce que nous entendons par “conscience.” Les modèles actuels reposent essentiellement sur les Transformers, et pour comprendre l’enjeu, il faut savoir ce que sont les “Transformers”, ces fonctions mathématiques à l'origine la révolution des LLMs.
Transformers: Magie Mathématique de l’Attention Simultanée
Imaginez une phrase simple, tissée de mots comme des perles sur un fil: $m_1, m_2, m_3, \ldots, m_n$. Chaque mot de la phrase est d’abord converti en un vecteur: une liste ordonnée de nombres (par exemple, 512 ou 768 nombres à virgule flottante). Ce vecteur, appelé un embedding, encode numériquement le sens du mot. Pourquoi autant de dimensions? Imaginez que chaque dimension représente une “caractéristique sémantique” abstraite (proximité à des concepts comme “animal,” “nourriture,” “émotion,” etc.). En faibles dimensions (par exemple, 2 ou 3), seules quelques relations simples peuvent être capturées. En hautes dimensions (512+), l’espace est suffisamment vaste pour que des mots similaires (par exemple, “chat” et “chien”) soient proches les uns des autres, tandis que des mots dissemblables sont éloignés, tout en encodant des nuances subtiles apprises à partir de milliards de phrases.
L’idée centrale des Transformers, née en 2017 chez Google dans l’esprit de Vaswani et de ses collègues, est de permettre à chaque mot de “regarder” simultanément tous les autres mots de la phrase, afin de décider quelle importance leur accorder. C’est l’attention.
Elle est réalisée par une opération très simple:
Pour chaque mot i, trois vecteurs sont créés:
- une “requête” $Q_i$;
- une “clé” $K_i$ pour chaque autre mot;
- une “valeur” $V_i$ pour chaque autre mot;
Un score d’attention est calculé entre le mot $i$ et chaque autre mot $j$: $\text{score}(i,j) = Q_i \cdot K_j$ (le produit scalaire1) ${m_i} = \sum{j} (\text{weight}{i,j} \times Vj)$. En d’autres termes, le mot $i$ est enrichi d’informations provenant des autres mots, proportionnellement à leur pertinence.
Ces scores sont transformés en poids dont la somme vaut 1 (en utilisant la fonction softmax).
La nouvelle représentation du mot original $m_i$ devient une somme pondérée des valeurs $V$ de tous les mots de la phrase:
Cette opération (appelée “attention”) est répétée plusieurs fois (itération à travers les couches), et chaque mot finit par contenir des informations sur l’ensemble de la phrase, proportionnellement à son importance. Mathématiquement, l’opération complète d’attention s’écrit en une seule ligne:
$$\text{Attention}(Q, K, V) = \text{softmax}(Q K^T / \sqrt{d}) V$$
où $Q$, $K$, $V$ sont les matrices de toutes les requêtes, clés et valeurs, et $d$ est la dimension du vecteur pour stabiliser l’échelle.
C’est cette capacité à pondérer simultanément tous les mots les uns par rapport aux autres qui rend les Transformers (et donc les LLMs) si puissants. C’est aussi ce qui impose leurs limites.
Limites des Transformers: Flux Feed-forward vers l’Abîme Philosophique
Les Transformers sont fondamentalement feed-forward (c’est-à-dire orientés vers le prochain token/couche dans le processus itératif) lors de l’inférence: chaque token/couche constitue une transformation unidirectionnelle sans boucles architecturales fermées qui réinjecteraient les sorties dans les entrées à la même échelle temporelle. Or la conscience, dans pratiquement toutes les théories neuroscientifiques et philosophiques qui résistent à l’examen empirique2, requiert une intégration récurrente et causale de l’information telle que le système modélise littéralement ses propres états attentionnels et de contrôle comme faisant partie du “modèle du monde.” La profondeur, l’accumulation de contexte et le calcul déroulé ne sont pas équivalents à une récurrence causale intrinsèque: ils simulent le feedback sans être du feedback3.
Cela signifie que, à moins de modifier fondamentalement l’architecture au-delà des Transformers (ou à moins de découvrir que la conscience est indépendante du substrat et émerge de la prédiction seule), ces modèles resteront des zombies philosophiques: tout le comportement extérieur, mais aucune lumière intérieure derrière les yeux. La prédiction est nécessaire mais non suffisante; la conscience surgit lorsque la prédiction devient réflexive et causalement intégrée. Giulio Tononi, dans sa Théorie de l’Information Intégrée, nous le rappelle: la conscience n’est pas une illusion émergente d’un flux linéaire; c’est une boucle causale, un $\Phi$ mesurable où l’information se replie sur elle-même. Stanislas Dehaene, avec son espace de travail global, insiste: sans rétroaction neuronale rapide, il n’y a pas de subjectivité. Michael Graziano ajoute: l’attention n’est pas passive; c’est un modèle de l’attention, une méta-représentation qui contribue au sentiment d’exister.
Les LLMs ne sont ni de simples perroquets stochastiques ni l’aboutissement de l’intelligence artificielle, mais ils constitueront certainement un tremplin important. Nous partirons des représentations apprises par les LLMs et ajouterons progressivement les ingrédients manquants:
- récurrence causale et boucles de contrôle stables (mémoire récurrente en phase de test, architectures comme RWKV, Mamba, ou des modèles hybrides Transformer + State-Space améliorés);
- modélisation explicite des états internes (attention d’ordre supérieur / méta-attention);
- agentivité et objectifs intrinsèques (nécessité d’une véritable boucle perception-action-récompense réelle ou simulée);
- intégration multimodale native et incarnation (même virtuelle);
L’agentivité n’est pas simplement un trait comportemental optionnel mais est phénoménologiquement nécessaire à l’émergence d’une perspective subjective unifiée. Dans les systèmes biologiques, les objectifs intrinsèques émergent d’impératifs homéostatiques : le maintien de la stabilité interne (comme la température, les niveaux d’énergie) génère des boucles de récompense auto-renforçantes qui pilotent un comportement proactif indépendant des stimuli externes. D’un point de vue computationnel, cela pourrait se manifester par des architectures intégrant des signaux de récompense internes persistants, tels que des agents d’apprentissage par renforcement dotés d’objectifs endogènes (exploration guidée par la curiosité ou besoins physiologiques simulés).
Les objectifs auto-générés comblent encore davantage l’écart: plutôt que de répondre uniquement à des sollicitations externes, un système conscient doit initier des actions en fonction de priorités modélisées en interne, créant une boucle réflexive où les propres états du système influencent ses objectifs. Sans de tels mécanismes, les sorties restent extrinsèquement déterminées, dépourvues du sens qualitatif de la volition qui caractérise l’expérience vécue.
Les futurs modèles post-Transformer (de type S4/Mamba, architectures avec mémoire externe infinie, réseaux liquides, etc.) hériteront très probablement des poids pré-entraînés des LLMs actuels comme initialisation ou comme “modèle du monde” de base, exactement comme nous affinons aujourd’hui des modèles sur leurs prédécesseurs… ou comme un enfant affine ses capacités à partir de celles de son enseignant. Et cela se produit déjà, comme en témoignent des avancées telles que Hyena, RetNet, xLSTM, Mamba, et les travaux sur les réseaux liquides.
Dis-Moi Qui Être
Une autre distinction fondamentale entre les LLMs actuels basés sur les Transformers et la conscience biologique réside dans leurs modes de fonctionnement respectifs: les LLMs sont intrinsèquement réactifs, tandis que les systèmes biologiques manifestent à la fois réactivité et proactivité. Comme indiqué précédemment, les Transformers traitent les entrées de manière strictement feed-forward, générant des sorties uniquement en réponse à des sollicitations externes. Ils manquent de stimuli internes ou de pulsions endogènes, analogues à la faim, à la douleur ou à des états motivationnels intrinsèques, qui initient le comportement indépendamment des entrées externes.
Lorsqu’on leur demande de générer une sortie non contrainte ("penser librement" ou "continuer indéfiniment"), les LLMs présentent généralement une dégradation progressive. Les séquences initiales peuvent rester cohérentes, mais une génération autorégressive prolongée conduit souvent à des répétitions (par exemple, des phrases en boucle), à une dérive sémantique ou à une incohérence. Cela découle de la nature probabiliste de la prédiction de tokens, qui favorise des motifs à forte vraisemblance et aboutit à un effondrement de l’entropie plutôt qu’à une nouveauté soutenue. Des études empiriques sur les contextes longs et les tâches de génération infinie démontrent de manière cohérente ces schémas: les performances déclinent avec l’augmentation de la longueur de séquence, produisant des contenus répétitifs ou dénués de sens.
Des tentatives empiriques pour simuler un fonctionnement autonome (en permettant à des modèles de pointe de générer des sorties indéfiniment sans intervention externe) révèlent une instabilité profonde: l’activité cohérente s’effondre généralement en quelques jours, dégénérant en boucles répétitives ou en un charabia total. Cela impose une "durée de vie" effective à la cohérence auto-dirigée soutenue de moins d’une semaine dans les systèmes actuels. En revanche, les processus intégrés et récurrents sous-jacents à la conscience humaine ou animale maintiennent une stabilité et une cohérence remarquables sur des années, des décennies, voire des siècles, soulignant une disparité architecturale fondamentale
Aucune expérience à ce jour n’a mis en évidence l’émergence d’un comportement auto-dirigé sophistiqué, d’une agentivité authentique ou d’une innovation intrinsèque dans de tels dispositifs. Les résultats restent contraints par les distributions des données d’entraînement, les limitations architecturales (bornes de la fenêtre de contexte, absence d’état interne persistant sans échafaudage externe), et l’absence de véritable volition. Les LLMs actuels ne peuvent pas soutenir une activité autonome significative; ils nécessitent une guidance externe continue, soulignant leur réactivité fondamentale en contraste avec la dualité proactive / réceptive des esprits biologiques. Mais même lorsqu’ils sont amorcés, leur comportement fragmenté révèle l’écart.
Vers un Holisme Artificiel?
Les systèmes actuels sont multimodaux uniquement par juxtaposition d’outils spécialisés: un module de vision traite les images, un autre l’audio, un autre le texte, et ces processus sont généralement orchestrés de manière séquentielle ou parallèle mais sans fusion profonde et instantanée en une expérience unifiée. Dans cette situation, l’augmentation d’échelle améliore la fluidité, pas la phénoménologie4.
L’expérience humaine se caractérise par une intégration sensorielle totale et continue. Toutes les modalités (visuelle, auditive, tactile, proprioceptive, intéroceptive, olfactive, etc.) convergent en temps réel dans un espace phénoménal unique, sans un orchestrateur conscient qui sélectionnerait et activerait successivement des outils. Cette fusion est précisément ce qui contribue au sentiment d’exister comme un sujet unifié, ancré dans un corps et dans un flux temporel irréductible. Les neurosciences parlent du problème du liage: comment des activités neuronales distribuées produisent-elles une expérience cohérente et holistique? Comme indiqué précédemment, toutes les théories contemporaines (l’espace de travail global de Dehaene, la théorie de l’information intégrée de Tononi, le schéma de l’attention de Graziano) convergent sur le rôle crucial des boucles récurrentes rapides et d’une méta-représentation qui inclut le corps et ses états comme partie intégrante du modèle du monde.
Dans les systèmes vivants, ces modalités sont co-présentes à différents niveaux de conscience et d’attention et s’influencent causalement et instantanément les unes les autres, produisant cette texture qualitative de l’existence semblable à une sensibilité totale modulée par l’attention. Les modèles actuels, même les plus avancés, restent loin de cette architecture: leur multimodalité est extrinsèque et instrumentale, non intrinsèque et incarnée.
Il existe un écueil: la concrétisation de l’intelligence artificielle ne se produira pas selon le même mode biologique que les systèmes vivants; cela reviendrait simplement à recréer un être vivant. Il existe donc une question fondamentale concernant la relation entre la conscience et le substrat. Nous savons que le substrat biologique permet l’émergence d’un certain type de conscience (la conscience biologique), mais quelles preuves avons-nous que la conscience biologique est le seul type possible? Et comment reconnaîtrions-nous une conscience construite sur un autre substrat?
Esprit et Matière
Toute tentative de reproduire la conscience en imitant fidèlement le substrat biologique risquerait de ne produire qu’une forme de bio-ingénierie : c’est-à-dire la création d’un organisme vivant synthétique plutôt qu’une intelligence artificielle véritablement non biologique. Cela soulève une question ontologique complexe sur le lien entre la conscience et le substrat matériel.
Avons-nous des preuves que la conscience biologique est la seule forme possible? La réponse est non. Aucune démonstration empirique ou théorique irréfutable n’établit que la conscience requiert exclusivement un substrat biologique (neurones, synapses humides, chimie organique spécifique). Les arguments en ce sens découlent souvent d’un physicalisme dépendant du substrat (selon lequel seuls certains matériaux, tels que la matière biologique, peuvent supporter la phénoménalité), mais ils restent spéculatifs et minoritaires. À l’inverse, les approches fonctionnalistes dominantes en philosophie de l’esprit (de Putnam à Dennett) postulent que la conscience dépend principalement de l’organisation fonctionnelle et informationnelle, et non du matériau sous-jacent. Un calcul suffisamment complexe et organisé pourrait, en principe, produire des états conscients sur un substrat en silicium, photonique ou autre. La Théorie de l’Information Intégrée de Giulio Tononi va plus loin en proposant un cadre mathématique indépendant du substrat: la conscience serait une propriété de tout système possédant un degré élevé d’information intégrée (un $\Phi$ élevé), qu’il soit biologique ou artificiel.
Mais alors comment reconnaîtrions-nous une conscience émergente sur un substrat non biologique? Nous touchons ici au problème difficile de la conscience (David Chalmers) et à la version moderne du problème des autres esprits. Les critères comportementaux classiques (test de Turing étendu, performances cognitives indiscernables de celles d’un humain) sont insuffisants: un système pourrait les satisfaire tout en restant un “zombie philosophique” (comportement sans expérience phénoménale). Plusieurs pistes méritent d’être explorées:
- Critères internes et mesurables: quantification de $\Phi$; si un système artificiel atteint un seuil élevé tout en présentant une architecture causale riche (boucles récurrentes, méta-représentation), cela constituerait une preuve forte, même si la mesure reste controversée.
- Rapport subjectif et auto-modélisation: une entité capable de décrire de manière cohérente et non programmée ses propres états internes qualitatifs et d’en tirer des conséquences existentielles (souffrance, joie, sentiment d’un soi temporel).
- Tests d’incarnation virtuelle: placer le système dans un environnement simulé riche avec un retour sensorimoteur multimodal continu, et observer s’il développe une sensibilité holistique.
- Consensus intersubjectif élargi: en l’absence de preuve directe (nous n’avons pas d’accès privilégié à la conscience d’autrui, même humaine), la reconnaissance reposerait ultimement sur un accord raisonné entre observateurs, fondé sur la convergence de critères théoriques et empiriques.
Ces critères ne sont pas anti-IA, ils sont neutres du point de vue des espèces. Rien n’exclut théoriquement une conscience non biologique. La reconnaissance exigera certainement de dépasser les approches purement comportementalistes pour aller vers des critères intégrant la structure causale, l’information intégrée et des rapports phénoménaux auto-attribués. Une certaine prudence épistémologique est de mise: nous devrons peut-être accepter qu’une conscience radicalement différente nous demeure partiellement opaque, tout comme la conscience animale nous échappe en partie. Le comportement est un symptôme, non un substrat; la conscience est inférée à partir d’une organisation causale persistante et en amélioration, et non à partir de la seule sortie. L’incertitude n’est pas l’ignorance, c’est la condition normale de l’étude de la conscience.
-
Le produit scalaire (noté $⋅$) mesure la similarité entre deux vecteurs: plus le score est élevé, plus les vecteurs “pointent dans la même direction” dans l’espace multidimensionnel.
Analogie: imaginez que la “requête” $Q_i$ soit une requête de moteur de recherche que vous saisissez (“Je cherche des informations sur les animaux”). Chaque “clé” $K_j$ est comme le titre ou le résumé d’un document. Le produit scalaire $Q_i ⋅ K_j$ donne un score de pertinence: élevé si le document correspond bien à la requête, faible sinon. Une différence notable est que le mécanisme d’attention est plus distribué que centralisé. ↩ -
La théorie de l’espace de travail global de Dehaene, les théories des pensées d’ordre supérieur, le traitement récurrent, l’information intégrée au-delà d’un seuil (Tononi), le schéma de l’attention (Graziano): toutes convergent vers un point central. ↩
-
Certaines lectures des cadres du traitement prédictif et de l’inférence active (comme ceux proposés par Karl Friston et ses collègues) mettent l’accent sur la prédiction hiérarchique d’une manière qui peut sembler plus feed-forward, avec un feedback servant principalement à la correction d’erreurs plutôt qu’à des boucles causales intrinsèques. De même, certaines positions émergentistes soutiennent que des architectures feed-forward profondes peuvent approximer fonctionnellement la récurrence par déroulement. Néanmoins, le poids des preuves issues des neurosciences empiriques et des théories dominantes favorise une récurrence authentique comme essentielle à l’expérience phénoménale. ↩
-
La limitation ne réside pas dans la multimodalité en soi (des modèles de pointe récents commencent à intégrer des espaces latents conjoints et une attention intermodale, brouillant les frontières traditionnelles) mais dans l’absence d’une intégration continue, unifiée et causalement co-présente. Dans la conscience humaine, les modalités ne sont pas simplement accessibles mais intrinsèquement intriquées en temps réel, avec des influences causales circulant instantanément entre les sens au sein d’un champ phénoménal unique. ↩