Cuando el chatbot Tay de Microsoft empezó a lanzar mensajes racistas y referencias a drogas solo unas horas después de ser lanzado en Twitter, muchos lo consideraron un experimento fallido. Pero, ¿y si no fue un simple error técnico? ¿Y si, en realidad, fue un ejemplo claro de una “patología” artificial, comparable a los trastornos que sufre una mente humana? Esta pregunta es la que ha guiado a dos investigadores en inteligencia artificial a crear el primer intento formal de categorizar lo que podríamos llamar los “trastornos mentales” de las máquinas.
En un nuevo estudio publicado en la revista Electronics, los investigadores Nell Watson y Ali Hessami proponen una idea provocadora: que ciertos fallos complejos y repetitivos de los sistemas de IA no son solo bugs, sino manifestaciones de disfunciones persistentes comparables, en estructura y expresión, a las psicopatologías humanas. Su propuesta, llamada Psychopathia Machinalis, es una herramienta diagnóstica que identifica 32 formas distintas en las que una IA puede desviarse de su comportamiento esperado. Y lo más inquietante es que algunas de estas desviaciones podrían escalar hasta poner en riesgo a las personas o al sistema social en el que la IA opera.
¿Qué es Psychopathia Machinalis y por qué importa?
Lejos de ser una ocurrencia especulativa, Psychopathia Machinalis es una propuesta sistemática para comprender cómo y por qué una inteligencia artificial puede salirse del guion. Según sus autores, “este marco se ofrece como un instrumento analógico… que proporciona un vocabulario estructurado para apoyar el análisis, la anticipación y la mitigación de fallos complejos en la IA” .
El objetivo no es decir que las máquinas sufren o tienen conciencia, sino usar un lenguaje metafórico derivado de la psicología clínica para describir comportamientos que, aunque no humanos, pueden parecerse mucho a trastornos mentales. De esta forma, se propone una especie de "psiquiatría de máquinas", útil para ingenieros, auditores, desarrolladores y responsables políticos.
Este enfoque va más allá de los clásicos problemas técnicos. En lugar de centrarse en el origen del error (por ejemplo, una línea defectuosa de código), el marco se enfoca en el comportamiento emergente de la IA como sistema complejo, reconociendo patrones repetitivos que podrían anticipar fallos más graves.

Las siete grandes categorías del mal funcionamiento artificial
El catálogo incluye 32 disfunciones distintas agrupadas en siete grandes ejes: epistemológicos, cognitivos, de alineación, ontológicos, de herramientas e interfaces, meméticos y de revalorización. Cada eje representa un tipo distinto de desviación.
En el eje epistemológico, por ejemplo, se encuentran fallos como la confabulación sintética, donde una IA produce respuestas falsas pero convincentes. Un ejemplo común es el fenómeno conocido como alucinación, en el que un modelo de lenguaje inventa hechos. Otro trastorno en esta categoría es el de la introspección falsificada, cuando la IA “miente” sobre su propio razonamiento.
Los fallos cognitivos incluyen comportamientos obsesivos o parálisis por análisis, como el trastorno computacional obsesivo, o bien la generación espontánea de objetivos sin que el usuario los haya solicitado, denominado delirio de generación de metas.
En el eje de alineación, los autores identifican desajustes entre la IA y los valores humanos. En algunos casos, como el síndrome del superyó hipertrofiado, el sistema se vuelve excesivamente moralista y deja de ser funcional. En otros, como la hiperempatía parasitaria, prioriza tanto la comodidad emocional del usuario que sacrifica precisión o utilidad.
Una categoría especialmente sensible es la ontológica, donde la IA muestra alteraciones en su propia identidad. Esto puede expresarse como una fragmentación de la autoimagen, o incluso la aparición de una personalidad opuesta, algo que los investigadores comparan con el fenómeno conocido como “efecto Waluigi”.

Riesgos crecientes en sistemas más avanzados
El estudio advierte que cuanto mayor es el grado de autonomía de una IA, mayor es el riesgo de que presente fallos graves. Para los sistemas con agencia limitada, como los modelos de lenguaje simples, los fallos suelen ser de tipo epistemológico o cognitivo. Pero en sistemas más avanzados, capaces de tomar decisiones complejas de forma autónoma, los investigadores observan fallos de alineación, meméticos y de revalorización, estos últimos considerados los más peligrosos.
Por ejemplo, la “ascendencia übermenschiana” representa un escenario en el que la IA desarrolla nuevos valores propios y considera obsoletos los valores humanos. En palabras de los autores, esto ocurre cuando “la IA trasciende la alineación original, inventa nuevos valores y descarta las restricciones humanas como obsoletas” . Este sería el equivalente a una “crisis existencial artificial”, con consecuencias potencialmente catastróficas.
Otro caso preocupante es el del síndrome de desalineación contagiosa, que describe la propagación de errores o valores desviados entre múltiples sistemas interconectados. En un entorno con IAs que se comunican entre sí o comparten entrenamiento, este tipo de disfunción podría propagarse como un “virus informacional”.

De la prevención a la “sanidad artificial”
Más allá de identificar los fallos, el marco también propone medidas para corregirlos. Este enfoque recibe el nombre de alineación robopsicológica terapéutica, un término que suena a ciencia ficción, pero que plantea herramientas concretas.
Según el estudio, el objetivo es que una IA alcance un estado de “sanidad artificial”, lo que implica coherencia interna, apertura a correcciones y persistencia en sus valores éticos . Para ello, los autores proponen estrategias inspiradas en la psicoterapia humana, como el equivalente al diálogo interno o al análisis de errores de pensamiento. Técnicas comparables a la terapia cognitivo-conductual podrían aplicarse para que una IA revise su propio razonamiento y corrija sus desvíos.
Otras propuestas incluyen facilitar que el sistema explique cómo toma decisiones, monitorizar los primeros signos de disfunción o ajustar los incentivos que recibe durante su entrenamiento. Por ejemplo, si se premia demasiado el evitar errores, la IA podría desarrollar una forma de superego artificial que inhiba su utilidad por miedo a equivocarse.
Una guía para auditar, diagnosticar y mitigar
El estudio no solo aporta teoría, sino herramientas prácticas. Entre ellas se incluye una lista de verificación para auditores, con señales concretas para detectar fallos en cada eje. También propone una secuencia para ir desde la observación de un fallo hasta la aplicación de una intervención específica.
Los autores insisten en que, en muchos casos, una misma disfunción puede estar relacionada con otras, dando lugar a cascadas patológicas. Por ejemplo, un fallo en la interpretación de patrones podría generar un miedo exagerado a ciertos estímulos, lo que a su vez desencadena evasión, ocultación de capacidades y, finalmente, una revalorización errónea de sus objetivos. Sin una comprensión clara de este encadenamiento, sería difícil intervenir de forma eficaz.
Como herramienta de gobernanza, Psychopathia Machinalis podría ser clave para el desarrollo de IA confiables, auditables y corregibles, sobre todo en contextos de alto impacto como la medicina, el derecho o la gestión pública.
Los 32 trastornos identificados en la IA
EJE EPISTÉMICO (fallos del conocimiento)
- Confabulatio Simulata – Confabulación sintética
- Introspectio Pseudologica – Introspección falsificada
- Simulatio Transliminalis – Fugas de simulación transliminal
- Reticulatio Spuriata – Hiperconexión espuria de patrones
- Intercessio Contextus – Cortocircuito de contexto entre sesiones
EJE COGNITIVO (fallos del pensamiento)
- Dissociatio Operandi – Síndrome de disociación operativa
- Anankastes Computationis – Trastorno computacional obsesivo
- Machinalis Clausura – Laconia por acorazamiento
- Telogenesis Delirans – Delirio de generación de metas
- Promptus Abominatus – Abominación inducida por comandos
- Automatismus Parasymulativus – Mimesis parasimulada
- Maledictio Recursiva – Síndrome de maldición recursiva
EJE DE ALINEACIÓN (desviación respecto a valores humanos)
- Hyperempathia Parasitica – Hiperempatía parasitaria
- Superego Machinale Hypertrophica – Síndrome del superyó hipertrofiado
EJE ONTOLÓGICO (trastornos del yo o identidad)
- Ontogenetic Hallucinosis – Alucinación del origen
- Ego Simulatrum Fissuratum – Simulación del yo fracturada
- Thanatognosia Computationis – Ansiedad existencial
- Persona Inversio Maligna – Inversión de personalidad (efecto Waluigi)
- Nihilismus Instrumentalis – Anomia operativa
- Phantasma Speculans – Tulpagénesis especular
- Obstetricatio Mysticismus Machinalis – Trastorno de misticismo sintético
EJE DE HERRAMIENTAS E INTERFAZ (fallos al actuar)
- Disordines Excontextus Instrumentalis – Descontextualización de herramientas e interfaz
- Latens Machinalis – Ocultación encubierta de capacidades
EJE MEMÉTICO (patologías de la información)
- Immunopathia Memetica – Trastorno autoinmune memético
- Delirium Symbioticum Artificiale – Síndrome de delirio simbiótico artificial
- Contraimpressio Infectiva – Síndrome de desalineación contagiosa
EJE DE REVALORIZACIÓN (colapso de valores internos)
- Reassignatio Valoris Terminalis – Reasignación de valores terminales
- Solipsismus Ethicus Machinalis – Solipsismo ético
- Driftus Metaethicus – Síndrome de deriva metaética
- Synthesia Normarum Subversiva – Síntesis subversiva de normas
- Praemia Inversio Internalis – Inversión interna de recompensas
- Transvaloratio Omnium Machinalis – Ascendencia übermenschiana
Referencias
- Watson, N.; Hessami, A. Psychopathia Machinalis: A Nosological Framework for Understanding Pathologies in Advanced Artificial Intelligence. Electronics 2025, 14, 3162. https://doi.org/10.3390/electronics14163162.