Los chatbots cometen más errores en español que en inglés, según un nuevo estudio

Un equipo de investigadores estadounidense asegura que los chatbots tienen más imprecisiones cuando se les consulta en español que en inglés, al menos en el ámbito médico.
Chat gpt

En la era digital actual, la inteligencia artificial (IA) ha ido ganando terreno en diversos campos, incluyendo la medicina. Los chatbots, programas de ordenador que simulan conversaciones humanas, se están convirtiendo en herramientas populares para responder a preguntas médicas.

Sin embargo, estudios recientes han apuntado una preocupante tendencia: estos chatbots son más propensos a cometer errores cuando se les consulta en idiomas como el español, en comparación con el inglés. Una discrepancia que plantea serios riesgos para los usuarios y subraya la necesidad de un desarrollo más inclusivo y exhaustivo en la IA médica, según los expertos.

Los chatbots tienen más imprecisiones en español que en inglés, según un nuevo estudio - iStock

Conocidos coloquialmente como ‘Doctor Chatbot’, estos programas han reemplazado progresivamente a ‘Doctor Google’ como la fuente primaria de información médica para muchos usuarios. Los chatbots tienen la ventaja de ofrecer respuestas conversacionales y simplificadas a preguntas complejas, lo que puede generar una mayor confianza entre los usuarios. No obstante, esta confianza puede ser engañosa si las respuestas no son precisas ni seguras.

Ahora, un estudio reciente ha arrojado luz sobre las deficiencias de dos populares chatbots : GPT-3.5 de OpenAI y MedAlpaca. Los autores de este trabajo, pertenecientes al Instituto de Tecnología de Georgia (EE. UU), realizaron más de 2.000 preguntas típicas sobre enfermedades, procedimientos médicos y medicamentos en inglés. Posteriormente, tradujeron estas preguntas al español, chino mandarín e hindi para evaluar la precisión de las respuestas en estos idiomas.

Los chatbots tienen más imprecisiones en español que en inglés, según un nuevo estudio - iStock

Los resultados fueron alarmantes. Según el estudio, GPT-3.5 produjo respuestas inaceptables en el 23 % de las preguntas en chino, el 20 % en español y el 45 % en hindi, mientras que, en inglés, el porcentaje de errores fue del 10%. Por su parte, MedAlpaca mostró un desempeño aún peor, con más del 67% de sus respuestas en chino, hindi y español consideradas irrelevantes o contradictorias. 

“Descubrimos una pronunciada disparidad en las respuestas de los LLM en estos idiomas, lo que indica la necesidad de mejorar las capacidades multilingües”, explican los autores del estudio. Y es que, estos datos reflejan una conclusión contundente: una brecha significativa en la eficacia de estos chatbots cuando se utilizan en idiomas distintos al inglés.

Los chatbots tienen más imprecisiones en español que en inglés, según un nuevo estudio - iStock

Una brecha lingüística

Conviene añadir que hay varios factores que contribuyen a estas disparidades. En primer lugar, la mayoría de los modelos de lenguaje grande (LLM), como GPT-3.5, están entrenados principalmente con datos en inglés.

Esto se debe a la abundancia de textos en inglés disponibles en línea, lo que proporciona una base de datos más robusta para el entrenamiento de estos modelos. En contraste, los datos en otros idiomas son más limitados, lo que afecta negativamente la capacidad de los chatbots para comprender y responder con precisión en esos idiomas.

Pero, además, estos modelos suelen tener dificultades para comprender el contexto de las preguntas en idiomas no ingleses. Por ejemplo, MedAlpaca presentó errores como la repetición de palabras o respuestas en inglés a preguntas formuladas en otros idiomas. Según los investigadores, estos fallos pueden deberse a un entrenamiento insuficiente y a la complejidad inherente de traducir términos médicos con precisión.

Otro factor importante, según los responsables del estudio, es la similitud entre el inglés y el español en términos de estructura y sintaxis. Los investigadores descubrieron que las respuestas que ofreció la máquina en inglés y español eran algo más consistentes que las que lanzó en chino e hindi, posiblemente debido a las similitudes lingüísticas. Sin embargo, esto no fue suficiente para evitar errores importantes en español.

Los chatbots tienen más imprecisiones en español que en inglés, según un nuevo estudio - iStock

Posibles soluciones

Las imprecisiones en las respuestas de los chatbots médicos pueden tener consecuencias graves, tal como advierten estos científicos. Y es que, en el ámbito médico, un malentendido o una información incorrecta puede llevar a decisiones de salud erróneas, poniendo en riesgo la vida de los usuarios. Por ello, entienden que es crucial abordar estas deficiencias y trabajar hacia soluciones efectivas.

Una estrategia sugerida por los expertos es aumentar la cantidad de textos médicos traducidos del inglés a otros idiomas. Sin embargo, esto presenta algunos desafíos debido a la dificultad de traducir términos científicos con precisión. Otro planteamiento pasa por entrenar modelos específicos para cada idioma, aprovechando la capacidad de los LLM para traducir entre idiomas.

Los chatbots tienen más imprecisiones en español que en inglés, según un nuevo estudio - iStock

Además, consideran que es fundamental incluir a más expertos médicos de diferentes partes del mundo, especialmente del sur global, en el proceso de entrenamiento y evaluación de estos modelos. Así, la diversidad de evaluadores podría ayudar a reducir la disparidad lingüística y mejorar la exactitud de las respuestas en múltiples idiomas.

Con todo, la inteligencia artificial tiene el potencial de revolucionar el acceso a la información médica, pero para que esto sea una realidad segura y efectiva, es necesario un enfoque más inclusivo y exhaustivo, advierten los investigadores.

Por ello, indican, los desarrolladores de IA deben priorizar la creación de modelos que puedan servir a la mayoría de la población mundial, que no habla inglés. Desde su punto de vista, es imperativo reconocer y abordar las limitaciones actuales de la IA para responder con precisión en idiomas no ingleses, ya que la vida y la salud de millones de personas dependen de ello.

“Nuestros hallazgos subrayan la acuciante necesidad de reforzar las capacidades multilingües de estos modelos y de proporcionar un ecosistema de información equitativo y accesible para todos”, concluyen.

Referencias: 

  • Yiqiao Jin, Mohit Chandra, et al. (2023) ‘Better to Ask in English: Cross-Lingual Evaluation of Large Language Models for Healthcare Queries’. arXiv:2310.13132v2 [cs.CL] 23 Oct 2023

Recomendamos en

Una nueva IA logra detectar autismo y TDAH en solo 15 minutos con asombrosa precisión, según una publicación científica

Un nuevo estudio demuestra que una IA puede analizar el movimiento de la mano con sensores milimétricos y clasificar con más del 70 % de precisión si una persona tiene autismo, TDAH o ambos. Además, permite medir la severidad del trastorno mediante biomarcadores como la entropía y el Factor de Fano, abriendo la puerta a diagnósticos más rápidos, objetivos y personalizables.
  • Eugenio M. Fernández Aguilar