Inteligencia artificial y diagnóstico médico
Un paciente llega a urgencias del Beth Israel Deaconess Medical Center de Boston con un coágulo de sangre que ha viajado a los pulmones. Le pautan anticoagulantes y, en lugar de mejorar, empeora. Los dos médicos internistas que revisan el caso después suponen que el tratamiento ha fallado. Al modelo de inteligencia artificial al que pasan el mismo historial se le ocurre otra cosa: el paciente arrastra un diagnóstico antiguo de lupus, y quizá lo que tiene no es una embolia mal tratada sino una pleuritis lúpica, una inflamación cardiopulmonar autoinmune. Acierta. E
l caso está sacado del estudio publicado el 30 de abril en Science por un equipo de la Harvard Medical School. El estudio compara el modelo o1 de OpenAI con cientos de médicos en seis experimentos de razonamiento clínico. En el más exigente, con 76 historias clínicas reales de urgencias evaluadas por revisores ciegos al origen del diagnóstico, el modelo igualó o superó a dos médicos adjuntos expertos.
La brecha mayor apareció en el triaje inicial, cuando hay menos información disponible, apenas registros electrónicos en el historial y unas pocas frases de las enfermeras: la IA acertó el diagnóstico exacto o uno muy cercano en el 67% de los casos, frente al 50% y al 55% de los dos médicos. Aunque es un resultado espectacular, conviene leerlo con cautela. Es un experimento sobre texto, sin imágenes, sin exploración física por parte de la IA, sin las señales no verbales del paciente, y los propios autores subrayan que el resultado no avala sustituir médicos por IA, sino abrir una agenda de ensayos prospectivos.
Aun así, el resultado encaja con otras recientes que invitan al optimismo y que he recopilado en las últimas semanas. La Mayo Clinic acaba de validar un sistema que detecta cáncer de páncreas en TACs abdominales rutinarios hasta tres años antes del diagnóstico clínico habitual, identificando cambios estructurales sutiles que el ojo humano no ve, lo que en una enfermedad detectada casi siempre tarde tiene consecuencias notables sobre la supervivencia. Y un ensayo clínico aleatorizado en mujeres mexicanas midió durante seis meses el efecto de un chatbot terapéutico sobre la salud mental: una mejora de 0,3 desviaciones estándar, comparable al de intervenciones presenciales de baja intensidad, sin aumento de casos graves.
Repasamos todo esto en el último episodio de monos estocásticos:
Hay algo que está sucediendo en medicina y es que los profesionales están adoptando la inteligencia artificial proactivamente, motu propio, en una tendencia que podríamos llamar “trae tu propia IA” y antes de que colegios y hospitales lo recomienden. Según la American Medical Association, más del 80% de los médicos en Estados Unidos declara usar herramientas de IA en su trabajo, y aproximadamente la mitad consulta a diario OpenEvidence, un buscador clínico anclado en literatura revisada por pares que en diciembre de 2025 atendió 18 millones de consultas.
Los médicos que la incorporan al flujo de trabajo la utilizan para asegurarse de las dosificaciones, tener segundas opiniones y rastreos rápidos de evidencia. En un reciente episodio de Hard Fork, el doctor Adam Rodman lo describe como la tecnología médica de adopción más rápida de la historia.
Frente a este panorama hay que subrayar también la evidencia menos amable. Un estudio publicado en febrero en Nature Medicine sobre ChatGPT Health, una herramienta de OpenAI orientada al consumidor, encontró que el sistema subestimaba el 52% de las urgencias reales, derivando casos como fallo respiratorio inminente a evaluación en 24-48 horas en lugar de a urgencias. La precisión seguía un patrón en U invertida: aceptable en lo intermedio, peligrosa en los extremos de gravedad clínica.
Este hallazgo con un servicio de OpenAI, la misma empresa que creó el estupendo o1 del estudio inicial, me resulta chocante. A primera vista parece haber una contradicción con el caso del lupus, que también es un caso extremo y allí la IA acierta. Pero la palabra “extremo” está siendo utilizada en dos sentidos distintos. En el estudio de Harvard, “extremo” se refiere a la complejidad diagnóstica: una presentación rara que exige unificar historial, síntomas y respuesta al tratamiento en una hipótesis coherente. En el estudio de Nature Medicine, “extremo” significa gravedad dentro del espectro de triaje, distinguir lo banal de lo vital. Lo que cambia entre los dos casos es la calidad de los datos añadidos al contexto y quién lo organiza. En el Beth Israel, el modelo recibió la historia clínica electrónica completa, estructurada por un sistema hospitalario; en ChatGPT Health recibe lo que un consumidor describe en un chat, con información parcial, mal jerarquizada y con el sesgo de lo que el paciente decide contar.
Esa lectura encaja con otro estudio reciente en JAMA Network Open: cuando se pide a los modelos generar el diagnóstico diferencial inicial a partir de información incompleta, fallan a la hora de incluir el diagnóstico correcto en su lista en más del 80% de los casos; en cambio, cuando ya disponen del cuadro clínico completo, los mejores aciertan el diagnóstico final más del 90% de las veces. Los modelos razonan bien sobre expedientes curados pero calibran mal cuando tienen que decidir, desde cero, qué pistas seguir.
Creo que esta aclaración ayuda a entender cuán limitada es la ayuda de un sistema de inteligencia artificial a día de hoy. Cómo de importante es el experto humano que pregunta, explora y deduce de la entrevista y el contacto con el paciente y por qué es fundamental no generalizar a partir de datos de un estudio que puede haber sido hecho en condiciones de laboratorio o tener un diseño muy particular que acota la validez de sus conclusiones.
Tres cuestiones más que conviene traer al debate de la medicina y la inteligencia artificial. Decía el doctor Rodman en la entrevista que enlazo antes que le preocupaba la formación de los médicos por la pérdida de aprendizaje de estudiantes y residentes. Buscando evidencia al respecto me he encontrado con esto: un estudio polaco publicado en The Lancet Gastroenterology & Hepatology mostró que endoscopistas que habían usado durante meses detección automática de pólipos perdieron, al volver a trabajar sin la herramienta, seis puntos porcentuales absolutos de capacidad para detectar adenomas. Volvemos a preocupaciones habituales en este blog: rendición cognitiva, sedentarismo intelectual.
La segunda cuestión gira en torno a que, en medio de todo esto, OpenEvidence acaba de retirarse de la Unión Europea y el Reino Unido alegando “incertidumbre regulatoria” sobre el AI Act y otras disposiciones legales. La pregunta razonable, en mi opinión no es si Bruselas se equivoca al exigir gestión de riesgos, gobernanza de datos y supervisión humana en información sobre la salud, sino cómo podemos tener alternativas sobre la mesa que ofrezcan el valor real que los médicos ya han detectado. En X me compartieron Elna, pero no estoy en condiciones de valorarla.
La tercera es que los mejores resultados obtenidos, los del estudio que abre este artículo, se consiguen con el modelo o1, ya ampliamente superado. Los peores, por modelos no razonadores y todavía más desfasados. Si ofrecemos ahora los mejores modelos disponibles a los médicos como apoyo en su ejercicio, los resultados serán todavía mejores.
Sigo pensando lo mismo, cada vez más, lo inconcebible, lo poco deontológico, será que el médico no use inteligencia artificial.






