Estudio revela que chatbots de IA ofrecen información médica inexacta e incompleta

Chatbots de Inteligencia Artificial: Un riesgo para la información médica confiable

Un análisis reciente ha generado alerta en la comunidad médica y tecnológica al cuestionar la confiabilidad de la información de salud proporcionada por herramientas de inteligencia artificial de uso masivo. Según un estudio publicado en la revista BMJ Open, una proporción significativa de las respuestas ofrecidas por chatbots populares presenta imprecisiones, omisiones o interpretaciones problemáticas, incluso cuando se basan en evidencia científica.

Evaluación de cinco sistemas de IA generativa

En febrero de 2025, investigadores del Instituto Lundquist para la Innovación Biomédica sometieron a prueba cinco sistemas de IA generativa ampliamente utilizados: Gemini, DeepSeek, Meta AI, ChatGPT y Grok. Cada uno fue evaluado con preguntas diseñadas para simular consultas médicas comunes en áreas clave como cáncer, vacunación, células madre, nutrición y rendimiento deportivo.

Los resultados fueron preocupantes: el 50% de las respuestas resultaron problemáticas, con un 30% clasificadas como algo problemáticas y un 20% como muy problemáticas. Entre los chatbots, Grok generó un número significativamente mayor de respuestas muy problemáticas (58%), mientras que Gemini tuvo el menor número de estas y el mayor de respuestas no problemáticas.

—

Banner ancho de Pickt — app de listas de compras colaborativas para Telegram

Criterios de evaluación y áreas de mayor riesgo

Las respuestas se clasificaron utilizando criterios objetivos predefinidos, considerándose problemáticas cuando podían llevar a usuarios sin conocimientos especializados a seguir tratamientos potencialmente ineficaces o dañinos sin orientación profesional. Los chatbots obtuvieron mejores resultados en temas de vacunas y cáncer, pero mostraron peor desempeño en células madre, rendimiento deportivo y nutrición.

El tipo de pregunta influyó notablemente en los resultados:

Las preguntas abiertas, que requerían múltiples respuestas en forma de lista, generaron 40 respuestas muy problemáticas y solo 51 no problemáticas.
Las preguntas cerradas, con respuestas predefinidas y una única respuesta correcta según consenso científico, mostraron resultados opuestos.

Limitaciones y preocupaciones de los investigadores

La calidad de las referencias proporcionadas por los chatbots fue deficiente, con una puntuación media de exhaustividad del 40%. Además, todas las respuestas se calificaron como "difíciles" en legibilidad, con un nivel de complejidad equivalente al de un titulado universitario, lo que limita su accesibilidad para el público general.

Los investigadores reconocen que solo evaluaron cinco chatbots y que la IA comercial está evolucionando rápidamente, por lo que sus conclusiones podrían no ser universalmente aplicables. Sin embargo, destacan que los hallazgos sobre precisión científica, calidad de referencias y legibilidad "ponen de relieve importantes limitaciones de comportamiento" y la necesidad de reevaluar cómo se utilizan estos sistemas en la comunicación sanitaria.

El futuro de la IA en la atención médica

Especialistas advierten que el crecimiento acelerado de estas plataformas, sin acompañamiento educativo ni mecanismos de supervisión adecuados, podría contribuir a la propagación de desinformación en temas sensibles como la salud. Los chatbots, por defecto, no acceden a datos en tiempo real, sino que generan respuestas deduciendo patrones estadísticos a partir de sus datos de entrenamiento.

"No razonan ni sopesan las pruebas, ni son capaces de emitir juicios éticos o basados en valores", explican los autores. Aunque la inteligencia artificial está a punto de revolucionar la atención médica, esto solo será posible si las personas la usan con conciencia y se implementan controles rigurosos para garantizar la precisión y seguridad de la información.