Los doctores Marcos Rojas Pino, quien está cursando un doctorado en Educación en la Universidad Stanford; Marcelo Rojas Duarte, profesor encargado del curso “Jornadas de Egreso profesional en Medicina” en nuestro plantel; Valentina Burgess, recientemente titulada de esta escuela de pregrado, Shima Salehi, académica de la Escuela de Educación de la Universidad de Stanford y el interno de séptimo año de Medicina Javier Toro Pérez, son los autores de este proyecto, titulado “Exploring the Performance of ChatGPT Versions 3.5, 4, and 4 With Vision in the Chilean Medical Licensing Examination: Observational Study”.
“Este estudio no solo destaca el potencial de la inteligencia artificial para la evaluación de competencias médicas, sino que también suscita importantes reflexiones sobre la formación médica en nuestro país. Su relevancia se extiende más allá del ámbito tecnológico, ofreciendo a las escuelas de medicina una oportunidad única para comparar estos resultados con los de sus propias cohortes. Esto podría fomentar un diálogo profundo sobre las metodologías de enseñanza y la preparación de futuros médicos, lo cual consideramos que podría tener un impacto significativo a nivel nacional”, señala el doctor Rojas Duarte.
Todas las versiones aprueban
El doctor Marcos Rojas cuenta que “en la Universidad de Stanford trabajo en el ámbito de la inteligencia artificial en educación médica, y dentro de las investigaciones iniciales que se están haciendo con IA están aquellas de desempeño; en el fondo, qué tan bien distintos tipos de inteligencia artificial pueden resolver problemas humanos. Y el Eunacom es un problema que estudiantes de medicina tienen que saber resolver. Quisimos tener más evidencia de qué tan buenas eran las inteligencias artificiales generativas –aquellas que pueden crear ideas y contenidos nuevos, como conversaciones, historias, imágenes, videos y música, como lo es ChatGPT, entre otras- respondiendo preguntas en español de conocimiento médico”.
Para ello usaron tres versiones de esta IA, como son las versiones 3.5, 4.0 y 4 con Visión de ChatGPT para ver cuál era el desempeño y si este variaba entre ellas. “Les entregamos una a una las preguntas, obtenidas de ensayos de años anteriores, y fuimos registrando las respuestas, y eso se repitió varias veces porque la naturaleza de esta IA es probabilística, lo que quiere decir que no necesariamente va a dar la misma respuesta cada vez, pues hay un sistema de predicción funcionando al interior de la máquina. Por lo tanto, hicimos este procedimiento varias veces y sacamos un promedio de esos resultados; así llegamos a que la versión 4.0 responde sustancialmente mejor que la 3.5; y las versiones 4.0 y 4 con Visión llegan a casi un 80% de respuestas correctas en promedio. Esto abre la conversación no solamente a cómo ha ido avanzando la inteligencia artificial y qué tanto esto nos puede ayudar en el futuro, sino que también en términos de qué estamos evaluando en los estudiantes y si en el futuro eso es tan relevante o no”.
Por ello, el doctor Marcelo Rojas detalla que las tres versiones de ChatGPT aprobaron el Eunacom. “En Chile para que un médico o médica apruebe tiene que tener más del 51% de las respuestas correctas de este examen, que evalúa 21 especialidades agrupadas en siete grandes temáticas, mediante 180 preguntas”. En ese sentido, detalla que si ChatGPT 4.0 tuvo casi un 80% de respuestas correctas “eso está muy sobre el punto de corte para aprobar el Eunacom , y no hubo diferencias significativas tampoco entre ChatGPT 4.0 y el 4 con Visión, probablemente porque esta última no mostró una mejora significativa en la interpretación de datos visuales en comparación con la versión 4.0”.
Incluso, añade que en cuanto al rendimiento por áreas médicas, “podemos ver que cada versión tiene una mejora en determinadas disciplinas, por ejemplo la versión 3.5 llegó casi 70% de respuestas aprobadas en psiquiatría; mientras que las versiones 4.0 y 4 con Visión llegaron con tasas del 90% en cirugía; es decir un altísimo nivel de logro de una máquina, que si lo comparamos con los egresados de universidades nacionales –estamos hablando de aproximadamente 1500 titulados de planteles que integran la Asociación de Facultades de Medicina de Chile que, año a año, rinden el Eunacom-, se puede establecer un trasfondo importante, al menos en dos dimensiones”.
Se abre la discusión
La primera de esas dimensiones es que la capacidad de ChatGPT “como inteligencia artificial para aprobar exámenes médicos importantes en distintos contextos lingüísticos y culturales sugiere un potencial como herramienta educativa, es decir, esto se puede explotar, pero sin dejar de considerar la limitación que supone su naturaleza probabilística, que por lo que tuvimos que hacer rendir muchas veces el examen. La alta precisión en ciertas áreas médicas destaca la necesidad de un mayor ajuste y formación del modelo para abordar la variabilidad de la práctica médica real. Esto nos indica que, aunque la IA puede ser una herramienta poderosa, todavía requiere mejoras y adaptaciones para ser completamente efectiva en contextos clínicos diversos", dice el doctor Rojas Duarte.
La segunda, añade, es “cómo interpretamos estos resultados a la luz de cómo se forman nuestras médicas y médicos en Chile. ¿Qué significa que una inteligencia artificial que salió hace pocos meses tenga estos resultados?; ¿estamos formando bien a nuestros médicos?; ¿son las preguntas de opción múltiple tipo viñeta clínica la mejor forma de evaluar a un egresado de medicina?; ¿podemos extrapolar estos resultados?; ¿podría la inteligencia artificial tener un rol importante en el diagnóstico y tratamiento médico? Esa es la discusión que queremos abrir, porque si decimos que la IA es capaz de aprobar el Eunacom, esto plantea aspectos éticos y humanísticos, pero también toca aspectos profundos sobre la esencia del arte médico que deben ser analizados”.
¿Este tipo de IA podría servir para generar nuevas preguntas para usar en el Eunacom?
Dr. Marcos Rojas: En educación médica la inteligencia artificial se usa para muchas cosas, desde procesos de selección de estudiantes, generación de preguntas, generación de evaluaciones, corrección de evaluaciones, otorgar retroalimentación, crear pacientes simulados, entre tantas otras cosas. El tipo de inteligencia artificial que nosotros usamos en esta investigación, que es la generativa, por sí sola tiene una gran gama de posibles explotaciones en distintas áreas para educación médica, pero también hay otros tipos de inteligencia artificial y técnica como el machine learning o el aprendizaje supervisado, entre otras. Esto que hicimos es un pequeño vistazo a lo que es posible, pero creo que las instituciones prontamente tienen que ponerse al día en saber usar esta tecnología, enseñar a los estudiantes y a los docentes para que las cosas cambien. Esta semana apareció una nueva versión de GPT, de la empresa Open AI, y una nueva versión de la IA generativa de Google, como es Gemini 1.5, que tiene nuevas capacidades; esto cambia muy rápido y lo que no era posible dos semanas atrás ahora lo es, pero no veo que las instituciones de educación superior cambien tan rápido, ni siquiera se han adaptado a lo primero que apareció. Esto sigue avanzando, y es también un llamado de atención a las instituciones a moverse rápidamente, a encontrar mecanismos para ser más eficientes y a informarse y a aprender a usar esto de la mejor manera. Justamente en cuanto a generación de preguntas de exámenes, hay otras universidades de todo el mundo que ya lo usan desde el 2022, cuando apareció el primer GPT público en su primera versión, y han seguido avanzando, explotando y haciendo otras cosas. Esto nos demuestra que en el contexto chileno sí se puede usar, nos da evidencia de que si le fue bien en el Eunacom nos podría servir para la educación médica en Chile en algunas cosas. Quizás por ahora no va a ser lo mejor, pero no quiere decir que no vaya a mejorar.
A ello, la doctora Valentina Burgess, quien rindió la versión más reciente de este examen, dice que “tiene varias falencias en distintas partes respecto de la práctica clínica. No considero que sea una herramienta adecuada para evaluar los conocimientos en medicina debido a la forma y tipo de preguntas, no se adaptan a la realidad que nosotros tenemos como médicos en la práctica, en la experiencia en terreno. Más que nada es una prueba teórica que sirve para un estudiante de quinto año de medicina que cumple con esos tipos de estándares, pero para evaluar la práctica real como profesionales, no considero que sea una prueba adecuada. El razonamiento clínico es súper importante en el desempeño profesional; por eso, lo más importante sería orientar las preguntas hacia ese pensamiento y dejar atrás las que requieren memoria”.
En ese sentido, el doctor Marcelo Rojas Duarte comenta que “actualmente, el resultado del Eunacom pondera un 15% en la calificación médica nacional, lo cual tiene una importancia significativa para optar a cupos de especialidad o como médico general de zona. Esto no era el espíritu original de la ley n°20.261, que creó este examen para establecer un parámetro mínimo necesario para ejercer la medicina en el sistema público en Chile; ahora, se ha convertido en un criterio de máximos. Este estudio nos muestra que es necesario replantearnos hacia dónde debe dirigirse la educación médica, tanto desde el punto de vista asistencial como ministerial. ¿Debemos seguir fortaleciendo un sistema que puede parecer parcial e incompleto, o debemos adaptarnos al ritmo de la inteligencia artificial y los cambios en la educación médica para implementar una evaluación más completa, flexible y plástica? La clave está en si los currículos de nuestras universidades en Chile tienen la capacidad y flexibilidad para adaptarse metodológica y evaluativamente a este nivel de plasticidad. La inteligencia artificial está entrando con mucha fuerza en todo el mundo y en nuestro país podría estar un paso atrás. ¿Es el Eunacom la herramienta correcta? Entendemos que hay criterios necesarios para evaluar a los aproximadamente 1500 a 2500 médicos egresados de universidades chilenas cada año, pero de la educación médica debe ser prioritario. En este sentido, creemos que este examen no abarca toda la complejidad que implica ser médico hoy en día. Debemos orientar nuestros esfuerzos en dotar de flexibilidad y plasticidad a los currículos para que se adapten a las innovaciones educativas, favoreciendo el aprendizaje y las técnicas de evaluación más completas y eficientes que solo viñetas clínicas por escrito.
Por último, los doctores cuentan que actualmente están haciendo un estudio con la Escuela de Medicina de nuestro plantel, en el que están encuestando a académicos y estudiantes para conocer su nivel de conocimiento respecto a la inteligencia artificial y tomar una decisión informada, cuyo resultado sirva a la para conocer cómo se debe avanzar respecto de su uso y enseñanza. “Lo que queremos con este estudio es saber en qué posición estamos con respecto a la inteligencia artificial y qué efecto va a tener en estudiantes y en educación de medicina”, dice la doctora Burgess. El doctor Marcos Rojas agrega que “vamos a hacer otro análisis posterior, porque vamos a controlar los grupos, entre otros factores, por región de origen, nivel socioeconómico, el tipo de asignatura que enseña –en caso de los docentes-, edad y género, y en base a eso veremos si hay algunos grupos que se ven en mayor desventaja en el uso de la inteligencia artificial”.