Desde hace unas semanas no paramos de ponerle retos a ChatGPT para saber hasta dónde es capaz de llegar la IA en estos momentos. Una mezcla de curiosidad e inquietante información que tiene su último dato en la medicina: la herramienta ha sido capaz de aprobar parte del examen de acceso a medicina en Estados Unidos.
Para ser más exactos, un equipo de investigadores ha puesto a prueba al programa para medir sus habilidades de razonamiento clínico utilizando preguntas del Examen de Licencias Médicas de los Estados Unidos (USMLE). Según explican los autores de un estudio que se ha publicado en medRxiv:
Elegimos probar el lenguaje generativo de IA en las preguntas del USMLE, ya que era un programa de prueba estandarizado integral de tres pasos y de alto riesgo que cubría todos los temas en el fondo de conocimiento de los médicos. Conocimientos, que abarcan las ciencias básicas, el razonamiento clínico, la gestión médica y la bioética.
Los resultados no pudieron ser más sorprendentes teniendo en cuenta que el modelo de lenguaje no fue entrenado en la versión de la prueba utilizada por los investigadores, ni recibió ninguna formación médica complementaria antes del estudio, en el que respondió a una serie de preguntas abiertas y de opción múltiple. Según los autores del trabajo:
En este estudio actual, ChatGPT se desempeñó con una precisión >50 % en todos los exámenes, superando el 60 % en la mayoría de los análisis. El umbral de aprobación de USMLE, aunque varía según el año, es de aproximadamente 60%. Por lo tanto, ChatGPT ahora se encuentra cómodamente dentro del rango de aprobación. Siendo el primer experimento en alcanzar este punto de referencia, creemos que este es un resultado sorprendente e impresionante.
No solo eso. Tras los resultados, el equipo cree que el rendimiento de la IA podría mejorarse con más indicaciones e interacción con el modelo. De hecho, cuando la IA se desempeñó mal, proporcionando respuestas menos concordantes, creen que se debió en parte a la falta de información que la IA no ha encontrado. Como indica el estudio:
Paradójicamente, ChatGPT superó a PubMedGPT (precisión del 50,8 %, datos no publicados), una contraparte [modelo de aprendizaje de idiomas] con una estructura neuronal similar, pero entrenado exclusivamente en literatura de dominio biomédico. Especulamos que el entrenamiento específico del dominio puede haber creado una mayor ambivalencia en el modelo PubMedGPT, ya que absorbe el texto del mundo real del discurso académico en curso que tiende a ser inconcluso, contradictorio o muy conservador o evasivo en su lenguaje.
¿Lo próximo? Los investigadores sugieren que la IA muy pronto puede convertirse en un lugar común en los entornos de atención médica, dada la velocidad del progreso de la industria.