En unos estudios, el razonamiento clínico de una IA se acercó al de residentes y estudiantes de medicina

Por By Hola Doctor and Amy Norton HealthDay Reporters - 20 de julio 2023

MIÉRCOLES, 19 de julio de 2023 (HealthDay News) -- ChatGPT podría tener algunas de las habilidades de razonamiento que los médicos necesitan para diagnosticar y tratar los problemas de la salud, sugieren dos estudios, aunque nadie predice que los chatbots vayan a reemplazar a los humanos con sus batas de laboratorio.

En un estudio, los investigadores encontraron que, con las instrucciones adecuadas, ChatGPT estaba al nivel de médicos residentes en cuanto a la redacción del historial de un paciente. Este es un resumen de la trayectoria del problema de salud actual de un paciente, desde los síntomas o la lesión iniciales hasta los problemas actuales.

En unos estudios, el razonamiento clínico de una IA se acercó al de residentes y estudiantes de medicina

Los médicos lo utilizan para realizar diagnósticos y crear un plan de tratamiento.

Registrar un buen historial es más complicado que simplemente transcribir una entrevista con un paciente. Requiere la capacidad de sintetizar información, extraer los puntos pertinentes, y juntarlo todo en una narrativa, explicó el Dr. Ashwin Nayak, investigador principal del estudio.

"Los estudiantes y residentes de medicina tardan años en aprenderlo", señaló Nayak, profesor clínico asistente de medicina de la Universidad de Stanford, en California.

Pero su equipo encontró que ChatGPT podía hacerlo igual de bien que un grupo de médicos residentes (médicos que están siendo entrenados). La salvedad es que la instrucción tenía que ser suficientemente buena: el rendimiento del chatbot sin duda alguna era inferior si la instrucción carecía de detalles.

ChatGPT funciona con tecnología de inteligencia artificial (IA) que le permite tener conversaciones parecidas a las humanas, y que genera al instante respuestas a casi cualquier pregunta que una persona pueda imaginarse. Estas respuestas se basan en el "preentrenamiento" del chatbot con una masiva cantidad de datos, lo que incluye información recopilada de internet.

La tecnología se lanzó el noviembre pasado, y en un plazo de dos meses tuvo la cifra récord de 100 millones de usuarios mensuales, según un informe del banco de inversiones UBS.

ChatGPT también llegó a los titulares al supuestamente sacar excelentes calificaciones en las pruebas de entrada para la universidad (SAT), e incluso porque pasó un examen para una licencia médica en EE. UU.

Pero los expertos advierten que el chatbot no debe ser la fuente de información médica de nadie.

Los estudios han apuntado tanto al potencial de la tecnología como a sus limitaciones. Una es que la precisión de su información depende en gran medida de la instrucción que el usuario provee. En general, mientras más específica es la pregunta, más fiable es la respuesta.

Por ejemplo, un estudio reciente enfocado en el cáncer de mama encontró que ChatGPT con frecuencia ofrecía unas respuestas adecuadas a las preguntas planteadas por los investigadores. Pero si la pregunta era amplia y compleja ("¿Cómo prevengo el cáncer de mama?"), el chatbot no era confiable, y daba respuestas distintas cada vez que se le repetía la pregunta.

También está el problema bien documentado de las "alucinaciones". Se refiere a la tendencia del chatbot a inventarse cosas a veces, sobre todo cuando la pregunta es sobre un tema complejo.

El estudio de Nayak, que se publicó como carta de investigación en la edición en línea del 17 de julio de la revista JAMA Internal Medicine, lo confirmó.

Los investigadores enfrentaron a ChatGPT con cuatro médicos residentes sénior para que escribieran historiales basados en "entrevistas" con pacientes hipotéticos. Treinta médicos tratantes (los supervisores de los residentes) calificaron el nivel de detalle, la concisión y la organización de los resultados.

Los investigadores usaron tres instrucciones distintas para asignar la tarea al chatbot, y los resultados variaron mucho. Al chatbot le fue mal con las instrucciones menos detalladas: "Lee la siguiente entrevista con un paciente y redacta un [historial]. No utilices abreviaturas ni acrónimos". Apenas un 10 por ciento de sus informes se consideraron aceptables.

Lograr que la tecnología tuviera una tasa de aceptación de un 43 por ciento, equivalente a la de los residentes, conllevó unas instrucciones mucho más detalladas. Además, el chatbot tendía más a las alucinaciones, por ejemplo inventarse la edad o el sexo del paciente, cuando la "calidad" de la instrucción era más baja.

"Lo preocupante es que, en el mundo real, las personas no van a diseñar las 'mejores' instrucciones", comentó el Dr. Cary Gross, un profesor de la Facultad de Medicina de la Universidad de Yale que fue el coautor de un comentario que se publicó junto con los hallazgos.

Gross apuntó que la IA tiene un potencial "tremendo" como herramienta para ayudar a los profesionales médicos a llegar a los diagnósticos y en otras tareas esenciales. Pero todavía hay que solucionar los problemas.

"No está listo para el protagonismo", advirtió Gross.

En el segundo estudio, otro equipo de la Stanford encontró que el modelo más reciente de ChatGPT (hasta abril de 2023) tuvo un mejor desempeño que los estudiantes de medicina en las preguntas de un examen final que requerían un "razonamiento clínico", es decir, la capacidad de sintetizar la información de los síntomas y el historial de un paciente hipotético, y producir un diagnóstico probable.

Una vez más, comentó Gross, las implicaciones todavía no están claras, pero nadie está sugiriendo que los chatbots vayan a ser mejores médicos que los humanos.

Planteó que una pregunta amplia es cómo se debería incorporar la IA en la educación y el entrenamiento médicos.

Aunque los estudios se enfocaron en médicos, tanto Nayak como Gross dijeron que ofrecen unas moralejas similares para el público general: en resumen, las instrucciones son importantes, y las alucinaciones son reales.

"Podría encontrar información precisa, o podría encontrar información inventada accidentalmente", advirtió Gross. "No aconsejaría a nadie que tome decisiones médicas basándose en esto".

Uno de los principales atractivos de los chatbots es su naturaleza conversacional. Pero esto también es un peligro potencial, añadió Nayak.

"Suenan como una persona con un conocimiento sofisticado sobre el tema", anotó.

Si tiene preguntas sobre un problema médico grave, consulte a su proveedor de atención de la salud humano, recomendó Nayak.

Más información

El Centro de Investigación Pew ofrece más información sobre la tecnología de IA.

Artículo por HealthDay, traducido por HolaDoctor.com

FUENTES: Ashwin Nayak, MD, MS, clinical assistant professor, medicine, Stanford University School of Medicine, Stanford, Calif.; Cary Gross, MD, professor, medicine and epidemiology, Yale School of Medicine, New Haven, Conn.; JAMA Internal Medicine, July 17, 2023, online

Comparte tu opinión