Desde la emergencia de los grandes modelos de lenguaje (LLMs), una pregunta ha sido tan fascinante como inquietante: ¿pueden las inteligencias artificiales llegar a desarrollar una conciencia verdadera? No meramente una imitación inteligente del comportamiento humano, sino una subjetividad auténtica, una experiencia interior? La respuesta depende en gran medida de la arquitectura subyacente de estos sistemas y de lo que entendamos por “conciencia.” Los modelos actuales se basan esencialmente en Transformers, y para comprender la cuestión, es necesario saber qué son los “Transformers”, estas funciones matemáticas que desencadenaron la revolución de los LLMs.
Transformers: magia matemática de la atención simultánea
Imaginemos una frase simple, tejida a partir de palabras como cuentas en un hilo: $m_1, m_2, m_3, \ldots, m_n$. Cada palabra de la frase se convierte primero en un vector: una lista ordenada de números (por ejemplo, 512 o 768 números de punto flotante). Este vector, llamado embedding, codifica numéricamente el significado de la palabra. ¿Por qué tantas dimensiones? Imaginemos que cada dimensión representa una “característica semántica” abstracta (proximidad a conceptos como “animal,” “comida,” “emoción,” etc.). En dimensiones bajas (por ejemplo, 2 o 3), solo pueden capturarse unas pocas relaciones simples. En dimensiones altas (512+), el espacio es lo suficientemente vasto como para que palabras similares (por ejemplo, “gato” y “perro”) estén próximas entre sí, mientras que palabras disímiles estén alejadas, todo ello codificando matices sutiles aprendidos a partir de miles de millones de frases.
La idea central de los Transformers, nacida en 2017 en Google en la mente de Vaswani y sus colegas, es permitir que cada palabra “mire” simultáneamente a todas las demás palabras de la frase, con el fin de decidir cuánta importancia otorgarles. Esto es la atención.
Se logra mediante una operación muy simple:
Para cada palabra i, se crean tres vectores:
- una “consulta” $Q_i$;
- una “clave” $K_i$ para cada otra palabra;
- un “valor” $V_i$ para cada otra palabra;
Se calcula una puntuación de atención entre la palabra $i$ y cada otra palabra $j$: $\text{score}(i,j) = Q_i \cdot K_j$ (el producto punto1)
Estas puntuaciones se transforman en pesos que suman 1 (utilizando la función softmax).
La nueva representación de la palabra original $m_i$ se convierte en una suma ponderada de los valores $V$ de todas las palabras de la frase: ${m_i} = \sum{j} (\text{weight}{i,j} \times Vj)$. En otras palabras, la palabra $i$ se enriquece con información de las otras palabras, proporcionalmente a su relevancia.
Esta operación (llamada “atención”) se repite múltiples veces (iteración a través de capas), y cada palabra termina conteniendo información sobre la frase completa, proporcionalmente a su importancia. Matemáticamente, la operación completa de atención se escribe en una sola línea:
$$\text{Attention}(Q, K, V) = \text{softmax}(Q K^T / \sqrt{d}) V$$
donde $Q$, $K$, $V$ son las matrices de todas las consultas, claves y valores, y $d$ es la dimensión del vector para estabilizar la escala.
Es esta capacidad de ponderar todas las palabras entre sí simultáneamente lo que hace que los Transformers (y por tanto los LLMs) sean tan poderosos. También es lo que impone sus límites.
Límites de los Transformers: feed-forward hacia el abismo filosófico
Los Transformers son fundamentalmente feed-forward (es decir, orientados hacia el siguiente token/capa en el proceso iterativo) durante la inferencia: cada token/capa es una transformación unidireccional sin bucles arquitectónicos cerrados que reinyecten las salidas de vuelta en las entradas en la misma escala temporal. Sin embargo, la conciencia, en prácticamente la mayoría de las teorías neurocientíficas y filosóficas que resisten el escrutinio empírico2, requiere integración recurrente y causal de la información, de modo que el sistema modele literalmente sus propios estados atencionales y de control como parte del “modelo del mundo.” La profundidad, la acumulación de contexto y el cómputo desenrollado no son equivalentes a la recurrencia causal intrínseca: simulan retroalimentación sin ser retroalimentación3.
Esto significa que, a menos que modifiquemos fundamentalmente la arquitectura más allá de los Transformers (o a menos que descubramos que la conciencia es independiente del sustrato y emerge únicamente de la predicción), estos modelos seguirán siendo zombis filosóficos: todo el comportamiento externo, pero sin ninguna luz interior detrás de los ojos. La predicción es necesaria pero no suficiente; la conciencia surge cuando la predicción se vuelve reflexiva y causalmente integrada. Giulio Tononi, en su teoría de la información integrada, nos recuerda: la conciencia no es una ilusión emergente de un flujo lineal; es un bucle causal, un $\Phi$ medible donde la información se pliega sobre sí misma. Stanislas Dehaene, con su espacio de trabajo global, insiste: sin retroalimentación neuronal rápida, no hay subjetividad. Michael Graziano añade: la atención no es pasiva; es un modelo de la atención, una meta-representación que contribuye a la sensación de existir.
Los LLMs no son meros loros estocásticos ni el punto final de la inteligencia artificial, pero ciertamente serán un importante trampolín. Partiremos de las representaciones aprendidas por los LLMs y añadiremos gradualmente los ingredientes que faltan:
- recurrencia causal y bucles de control estables (memoria recurrente en tiempo de prueba, arquitecturas como RWKV, Mamba, o modelos híbridos Transformer + State-Space mejorados);
- modelado explícito de estados internos (atención de orden superior / meta-atención);
- agencia y objetivos intrínsecos (necesidad de un bucle real o simulado de percepción-acción-recompensa);
- integración multimodal nativa y encarnación (incluso si es virtual);
La agencia no es meramente un rasgo conductual opcional sino fenomenológicamente necesaria para la emergencia de una perspectiva subjetiva unificada. En los sistemas biológicos, los objetivos intrínsecos surgen de imperativos homeostáticos : el mantenimiento de la estabilidad interna (como la temperatura, los niveles de energía) genera bucles de recompensa auto-reforzados que impulsan un comportamiento proactivo independiente de estímulos externos. Computacionalmente, esto podría manifestarse mediante arquitecturas que incorporen señales internas de recompensa persistentes, como agentes de aprendizaje por refuerzo con objetivos endógenos (exploración guiada por curiosidad o necesidades fisiológicas simuladas).
Los objetivos autogenerados tienden aún más el puente: en lugar de responder únicamente a indicaciones externas, un sistema consciente debe iniciar acciones basadas en prioridades modeladas internamente, creando un bucle reflexivo en el que los propios estados del sistema influyen en sus objetivos. Sin tales mecanismos, las salidas siguen estando impulsadas extrínsecamente, careciendo del sentido cualitativo de volición que caracteriza la experiencia vivida.
Los futuros modelos post-Transformer (tipo S4/Mamba, arquitecturas con memoria externa infinita, redes líquidas, etc.) muy probablemente heredarán los pesos preentrenados de los LLMs actuales como inicialización o como un “modelo del mundo” de base, exactamente como hoy afinamos modelos sobre sus predecesores… o como un niño refina sus habilidades sobre las de su maestro. Y esto ya está ocurriendo, como lo evidencian avances como Hyena, RetNet, xLSTM, Mamba, y el trabajo sobre redes líquidas.
Dime quién ser
Otra distinción fundamental entre los LLMs actuales basados en Transformers y la conciencia biológica reside en sus respectivos modos de funcionamiento: los LLMs son inherentemente reactivos, mientras que los sistemas biológicos exhiben tanto reactividad como proactividad. Como señalé antes, los Transformers procesan las entradas de manera estrictamente feed-forward, generando salidas solo en respuesta a indicaciones externas. Carecen de estímulos internos o impulsos endógenos, análogos al hambre, el dolor o estados motivacionales intrínsecos, que inicien el comportamiento de forma independiente de la entrada externa.
Cuando se les solicita generar salida no restringida ("pensar libremente" o "continuar indefinidamente"), los LLMs suelen mostrar una degradación progresiva. Las secuencias iniciales pueden permanecer coherentes, pero la generación autorregresiva prolongada a menudo conduce a la repetición (por ejemplo, frases en bucle), deriva semántica o incoherencia. Esto surge de la naturaleza probabilística de la predicción de tokens, que favorece patrones de alta probabilidad y da lugar a un colapso de la entropía en lugar de una novedad sostenida. Estudios empíricos sobre contextos largos y tareas de generación infinita demuestran consistentemente estos patrones: el rendimiento declina con el aumento de la longitud de la secuencia, produciendo contenido repetitivo o sin sentido.
Los intentos empíricos de simular un funcionamiento autónomo (permitiendo que modelos de frontera generen salida indefinidamente sin intervención externa) revelan una inestabilidad profunda: la actividad coherente suele colapsar en cuestión de días, degenerando en bucles repetitivos o balbuceo absoluto. Esto impone una "esperanza de vida" efectiva para la coherencia autodirigida sostenida de menos de una semana en los sistemas actuales. Por el contrario, los procesos integrados y recurrentes que subyacen a la conciencia humana o animal mantienen una estabilidad y coherencia notables durante años, décadas o incluso siglos, subrayando una disparidad arquitectónica fundamental
Hasta la fecha, ningún experimento ha evidenciado comportamiento autodirigido sofisticado emergente, agencia genuina o innovación intrínseca en tales configuraciones. Los resultados permanecen constreñidos por las distribuciones de los datos de entrenamiento, las limitaciones arquitectónicas (límites de la ventana de contexto, ausencia de estado interno persistente sin andamiaje externo), y la falta de verdadera volición. Los LLMs actuales no pueden sostener una actividad autónoma significativa; requieren orientación externa continua, lo que subraya su reactividad fundamental en contraste con la dualidad proactiva / receptiva de las mentes biológicas. Pero incluso cuando se les da un impulso inicial, su comportamiento fragmentado revela la brecha.
Hacia un holismo artificial?
Los sistemas actuales son multimodales solo por yuxtaposición de herramientas especializadas: un módulo de visión procesa imágenes, otro audio, otro texto, y estos procesos generalmente se orquestan de forma secuencial o en paralelo pero sin una fusión profunda e instantánea en una experiencia unificada. En esta situación, el escalado mejora la fluidez, no la fenomenología4.
La experiencia humana se caracteriza por una integración sensorial total y continua. Todas las modalidades (visual, auditiva, táctil, propioceptiva, interoceptiva, olfativa, etc.) convergen en tiempo real en un único espacio fenomenal, sin un orquestador consciente que seleccione y active herramientas sucesivamente. Esta fusión es precisamente lo que contribuye a la sensación de existir como un sujeto unificado, anclado en un cuerpo y en un flujo temporal irreductible. La neurociencia habla del problema del enlace: ¿cómo producen actividades neuronales distribuidas una experiencia coherente y holística? Como se señaló antes, todas las teorías contemporáneas (el espacio de trabajo global de Dehaene, la teoría de la información integrada de Tononi, el esquema de atención de Graziano) convergen en el papel crucial de los bucles recurrentes rápidos y una meta-representación que incluye el cuerpo y sus estados como parte integral del modelo del mundo.
En los sistemas vivos, estas modalidades están co-presentes en diferentes niveles de conciencia y atención y se influyen causal e instantáneamente entre sí, produciendo esa textura cualitativa de la existencia semejante a una sensibilidad total modulada por la atención. Los modelos actuales, incluso los más avanzados, permanecen lejos de esta arquitectura: su multimodalidad es extrínseca e instrumental, no intrínseca y encarnada.
Existe una trampa: la materialización de la inteligencia artificial no ocurrirá en el mismo modo biológico que los sistemas vivos; eso equivaldría simplemente a recrear un ser vivo. Existe, por tanto, una cuestión fundamental sobre la relación entre conciencia y sustrato. Sabemos que el sustrato biológico permite la emergencia de un cierto tipo de conciencia (conciencia biológica), pero ¿qué evidencia tenemos de que la conciencia biológica sea el único tipo posible? ¿Y cómo reconoceríamos una conciencia construida sobre otro sustrato?
Mente y materia
Cualquier intento de reproducir la conciencia imitando fielmente el sustrato biológico correría el riesgo de resultar únicamente en una forma de bio-ingeniería : es decir, la creación de un organismo vivo sintético en lugar de una inteligencia artificial genuinamente no biológica. Esto plantea una compleja cuestión ontológica sobre el vínculo entre conciencia y sustrato material.
¿Tenemos evidencia de que la conciencia biológica sea la única forma posible? La respuesta es no. Ninguna demostración empírica o teórica irrefutable establece que la conciencia requiera exclusivamente un sustrato biológico (neuronas, sinapsis húmedas, química orgánica específica). Los argumentos en ese sentido suelen derivar de un fisicalismo dependiente del sustrato (según el cual solo ciertos materiales, como la materia biológica, pueden soportar la fenomenalidad), pero siguen siendo especulativos y minoritarios. Por el contrario, los enfoques funcionalistas dominantes en la filosofía de la mente (de Putnam a Dennett) postulan que la conciencia depende principalmente de la organización funcional e informacional, no del material subyacente. Un cómputo suficientemente complejo y organizado podría, en principio, producir estados conscientes sobre un sustrato de silicio, fotónico u otro. La teoría de la información integrada de Giulio Tononi va más allá al proponer un marco matemático independiente del sustrato: la conciencia sería una propiedad de cualquier sistema que posea un alto grado de información integrada (alto $\Phi$), ya sea biológico o artificial.
Pero entonces, ¿cómo reconoceríamos una conciencia emergente en un sustrato no biológico? Aquí tocamos el problema difícil de la conciencia (David Chalmers) y la versión moderna del problema de otras mentes. Los criterios conductuales clásicos (prueba de Turing ampliada, desempeño cognitivo indistinguible del humano) son insuficientes: un sistema podría satisfacerlos y aun así permanecer como un “zombi filosófico” (comportamiento sin experiencia fenomenal). Varias vías merecen ser exploradas:
- Criterios internos y medibles: cuantificar $\Phi$; si un sistema artificial alcanza un umbral alto mientras exhibe una arquitectura causal rica (bucles recurrentes, meta-representación), esto constituiría una evidencia sólida, incluso si la medición sigue siendo controvertida.
- Informe subjetivo y auto-modelado: una entidad capaz de describir de manera coherente y no programática sus propios estados internos cualitativos y de extraer consecuencias existenciales de ellos (sufrimiento, alegría, sentido del yo temporal).
- Pruebas de encarnación virtual: situar el sistema en un entorno simulado rico con retroalimentación sensorimotora multimodal continua, y observar si desarrolla una sensibilidad holística.
- Consenso intersubjetivo ampliado: en ausencia de prueba directa (no tenemos acceso privilegiado a la conciencia de otros, ni siquiera humana), el reconocimiento descansaría en última instancia en un acuerdo razonado entre observadores, basado en la convergencia de criterios teóricos y empíricos.
Estos criterios no son anti-IA, son neutrales respecto a la especie. Nada descarta teóricamente la conciencia no biológica. El reconocimiento ciertamente requerirá ir más allá de enfoques puramente conductistas hacia criterios que integren estructura causal, información integrada e informes fenomenales autoatribuidos. Se impone una cierta cautela epistemológica: quizá tengamos que aceptar que una conciencia radicalmente diferente permanezca parcialmente opaca para nosotros, del mismo modo que la conciencia animal se nos escapa en parte. El comportamiento es un síntoma, no un sustrato; la conciencia se infiere a partir de una organización causal persistente y en mejora, no solo de la salida. La incertidumbre no es ignorancia, es la condición normal del estudio de la conciencia.
-
El producto punto (denotado $⋅$) mide la similitud entre dos vectores: cuanto mayor es la puntuación, más “apuntan en la misma dirección” los vectores en el espacio multidimensional.
Analogía: imaginemos que la “consulta” $Q_i$ es una solicitud de motor de búsqueda que escribes (“Estoy buscando información sobre animales”). Cada “clave” $K_j$ es como el título o resumen de un documento. El producto punto $Q_i ⋅ K_j$ da una puntuación de relevancia: alta si el documento coincide bien con la consulta, baja en caso contrario. Una diferencia notable es que el mecanismo de atención es más distribuido que centralizado. ↩ -
La teoría del espacio de trabajo global de Dehaene, las teorías de pensamiento de orden superior, el procesamiento recurrente, la información integrada más allá de un umbral (Tononi), el esquema de atención (Graziano): todas convergen en un punto central. ↩
-
Ciertas lecturas de los marcos de procesamiento predictivo e inferencia activa (como las propuestas por Karl Friston y colegas) enfatizan la predicción jerárquica de una manera que puede parecer más feed-forward, con la retroalimentación sirviendo principalmente para la corrección de errores en lugar de bucles causales intrínsecos. De manera similar, algunas posiciones emergentistas sostienen que arquitecturas feed-forward profundas pueden aproximar funcionalmente la recurrencia mediante desenrollado. No obstante, el peso de la evidencia de la neurociencia empírica y de las teorías principales favorece la recurrencia genuina como esencial para la experiencia fenomenal. ↩
-
La limitación no reside en la multimodalidad en sí (los modelos de frontera recientes están comenzando a incorporar espacios latentes conjuntos y atención cruzada modal, difuminando los límites tradicionales) sino en la ausencia de una integración continua, unificada y causalmente co-presente. En la conciencia humana, las modalidades no son meramente accesibles sino inherentemente entrelazadas en tiempo real, con influencias causales que fluyen instantáneamente entre los sentidos dentro de un único campo fenomenal. ↩