En un estudio reciente publicado en PLOS Salud Digitallos investigadores evaluaron el rendimiento de un modelo de inteligencia artificial (IA) llamado ChatGPT para realizar un razonamiento clínico en el Examen de Licencias Médicas de los Estados Unidos (USMLE).

El USMLE comprende tres exámenes estandarizados que ayudan a los estudiantes a obtener una licencia médica en los EE. UU.
Fondo
Table of Contents
Ha habido avances en inteligencia artificial (IA) y aprendizaje profundo en la última década. Estas tecnologías se han vuelto aplicables en varias industrias, desde la fabricación y las finanzas hasta los bienes de consumo. Sin embargo, sus aplicaciones en la atención clínica, especialmente en los sistemas de tecnología de la información (TI) de atención médica, siguen siendo limitadas. En consecuencia, la IA ha encontrado relativamente pocas aplicaciones en la atención clínica generalizada.
Una de las principales razones de esto es la escasez de datos de entrenamiento específicos del dominio. Los grandes modelos de dominio general ahora permiten la IA basada en imágenes en imágenes clínicas. Ha llevado al desarrollo de Inception-V3, un modelo superior de imágenes médicas que abarca dominios desde la oftalmología y la patología hasta la dermatología.
En las últimas semanas, ChatGPT, un modelo general de lenguaje grande (LLM) desarrollado por OpenAI (no específico de dominio), atrajo la atención debido a su potencial excepcional para realizar un conjunto de tareas de lenguaje natural. Utiliza un novedoso algoritmo de inteligencia artificial que predice una secuencia de palabras determinada en función del contexto de las palabras escritas antes.
Por lo tanto, podría generar secuencias de palabras plausibles basadas en el lenguaje humano natural sin estar entrenado en datos de texto gigantescos. Las personas que han usado ChatGPT lo encuentran capaz de razonar deductivamente y desarrollar una cadena de pensamiento.
Con respecto a la elección del USMLE como sustrato para las pruebas de ChatGPT, los investigadores lo encontraron rico desde el punto de vista lingüístico y conceptual. La prueba contenía datos clínicos multifacéticos (p. ej., exámenes físicos y resultados de pruebas de laboratorio) utilizados para generar escenarios médicos ambiguos con diagnósticos diferenciales.
Sobre el estudio
En el presente estudio, los investigadores primero codificaron los elementos del examen USMLE como preguntas abiertas con indicaciones de introducción variables, luego como preguntas de opción múltiple y respuesta única sin justificación forzada (MC-NJ). Finalmente, las codificaron como preguntas de opción múltiple y respuesta única con una justificación forzada de selecciones positivas y negativas (MC-J). De esta forma, evaluaron la precisión de ChatGPT para los tres pasos USMLE, los pasos 1, 2CK y 3.
A continuación, dos revisores médicos arbitraron de forma independiente la concordancia de ChatGPT en todas las preguntas y formatos de entrada. Además, evaluaron su potencial para mejorar el aprendizaje humano relacionado con la educación médica. Dos revisores médicos también examinaron el contenido explicativo generado por IA para novedad, no obviedad y validez desde la perspectiva de los estudiantes de medicina.
Además, los investigadores evaluaron la prevalencia de la percepción dentro de las explicaciones generadas por IA para cuantificar la densidad de percepción (DOI). El DOI de alta frecuencia y moderado (>0,6) indicó que podría ser posible que un estudiante de medicina adquiriera algún conocimiento a partir de la salida de IA, especialmente cuando respondiera incorrectamente. DOI indicó la singularidad, novedad, no obviedad y validez de las ideas proporcionadas para más de tres de cinco opciones de respuesta.
Resultados
ChatGPT se desempeñó con más del 50 % de precisión en los tres exámenes USMLE, superando el umbral de aprobación del USMLE del 60 % en algunos análisis. Es una hazaña extraordinaria porque ningún otro modelo anterior alcanzó este punto de referencia; apenas unos meses antes, se desempeñaron con una precisión del 36,7%. La iteración GPT de Chat GPT3 logró una precisión del 46 % sin indicaciones ni capacitación, lo que sugiere que una mayor optimización del modelo podría generar resultados más precisos. Es probable que el rendimiento de la IA continúe avanzando a medida que maduren los modelos LLM.
Además, ChatGPT se desempeñó mejor que PubMedGPT, un LLM similar capacitado exclusivamente en literatura biomédica (precisiones ~60 % frente a 50,3 %). Parece que ChatGPT, capacitado en contenido general no específico de dominio, tuvo sus ventajas como exposición a más contenido clínico, por ejemplo, los manuales de enfermedades que enfrentan los pacientes son mucho más concluyentes y consistentes.
Otra razón por la que el rendimiento de ChatGPT fue más impresionante es que los modelos anteriores probablemente habían ingerido muchas de las entradas durante el entrenamiento, mientras que no lo habían hecho. Tenga en cuenta que los investigadores probaron ChatGPT con exámenes USMLE más contemporáneos que estuvieron disponibles públicamente solo en el año 2022). Sin embargo, habían entrenado otros modelos de lenguaje de dominio específico, por ejemplo, PubMedGPT y BioBERT, en el conjunto de datos MedQA-USMLE, disponible públicamente desde 2009.
Curiosamente, la precisión de ChatGPT se inclinó a aumentar secuencialmente, siendo la más baja para el Paso 1 y la más alta para el Paso 3, lo que refleja la percepción de los usuarios humanos del mundo real, quienes también encuentran difícil el tema del Paso 1. Este hallazgo particular expone la vulnerabilidad de la IA para conectarse con la capacidad humana.
Además, los investigadores notaron que la información faltante provocó la inexactitud observada en las respuestas de ChatGPT, lo que generó información más pobre e indecisión en la IA. Sin embargo, no mostró una inclinación hacia la opción de respuesta incorrecta. En este sentido, podrían intentar mejorar el rendimiento de ChatGPT fusionándolo con otros modelos entrenados en recursos abundantes y altamente validados en el dominio clínico (por ejemplo, UpToDate).
En ~90% de los resultados, las respuestas generadas por ChatGPT también ofrecieron información importante, valiosa para los estudiantes de medicina. Mostró la capacidad parcial de extraer conceptos novedosos y no obvios que podrían proporcionar ganancias cualitativas para la educación médica humana. Como sustituto de la métrica de utilidad en el proceso de aprendizaje humano, las respuestas de ChatGPT también fueron muy concordantes. Por lo tanto, estos resultados podrían ayudar a los estudiantes a comprender el lenguaje, la lógica y el curso de las relaciones incluidas en el texto explicativo.
Conclusiones
El estudio proporcionó evidencia nueva y sorprendente de que ChatGPT podría realizar varias tareas complejas relevantes para el manejo de información médica y clínica compleja. Aunque los hallazgos del estudio proporcionan un protocolo preliminar para arbitrar las respuestas generadas por la IA con respecto a la percepción, la concordancia, la precisión y el advenimiento de la IA en la educación médica requeriría una infraestructura de investigación científica abierta. Ayudaría a estandarizar los métodos experimentales y describir y cuantificar las interacciones humano-IA.
Pronto, las IA podrían generalizarse en la práctica clínica, con diversas aplicaciones en casi todas las disciplinas médicas, por ejemplo, apoyo a la toma de decisiones clínicas y comunicación con el paciente. El notable rendimiento de ChatGPT también inspiró a los médicos a experimentar con él.
En AnsibleHealth, una clínica de enfermedades pulmonares crónicas, están utilizando ChatGPT para ayudar con tareas desafiantes, como simplificar los informes de radiología para facilitar la comprensión del paciente. Lo que es más importante, utilizan ChatGPT para intercambiar ideas cuando se enfrentan a casos difíciles desde el punto de vista del diagnóstico.
La demanda de nuevos formatos de examen sigue aumentando. Por lo tanto, los estudios futuros deberían explorar si la IA podría ayudar a descargar el esfuerzo humano de realizar pruebas médicas (por ejemplo, USMLE) ayudando con el proceso de explicación de preguntas o, si es factible, escribiendo todo de forma autónoma.


