GPT-4 tuvo un rendimiento cercano al nivel de los médicos expertos en evaluaciones oculares


A medida que los modelos de aprendizaje de idiomas (LLM) continúan avanzando, también lo hacen las preguntas sobre cómo pueden beneficiar a la sociedad en áreas como el campo médico. Un estudio reciente de la Facultad de Medicina Clínica de la Universidad de Cambridge encontró que el GPT-4 de OpenAI funcionó casi tan bien en una evaluación oftalmológica como los expertos en el campo, el Tiempos financieros reportado por primera vez.

En el estudio, publicado en Más salud digital, los investigadores probaron el LLM, su predecesor GPT-3.5, el PaLM 2 de Google y el LLaMA de Meta con 87 preguntas de opción múltiple. Cinco oftalmólogos expertos, tres oftalmólogos en formación y dos médicos jóvenes no especializados recibieron el mismo examen simulado. Las preguntas surgieron de un libro de texto para realizar pruebas a los alumnos sobre todo, desde la sensibilidad a la luz hasta las lesiones. Los contenidos no están disponibles públicamente, por lo que los investigadores creen que los LLM no podrían haber sido capacitados en ellos previamente. ChatGPT, equipado con GPT-4 o GPT-3.5, tuvo tres oportunidades de responder definitivamente o su respuesta se marcó como nula.

GPT-4 obtuvo una puntuación más alta que los estudiantes y los médicos jóvenes, respondiendo correctamente 60 de las 87 preguntas. Si bien esto fue significativamente más alto que el promedio de 37 respuestas correctas de los médicos jóvenes, apenas superó el promedio de 59,7 de los tres estudiantes. Mientras que un oftalmólogo experto solo respondió con precisión 56 preguntas, los cinco obtuvieron una puntuación promedio de 66,4 respuestas correctas, superando a la máquina. PaLM 2 obtuvo una puntuación de 49 y GPT-3.5 obtuvo una puntuación de 42. LLaMa obtuvo la puntuación más baja con 28, quedando por debajo de los médicos jóvenes. En particular, estos ensayos se produjeron a mediados de 2023.

Si bien estos resultados tienen beneficios potenciales, también existen bastantes riesgos y preocupaciones. Los investigadores notaron que el estudio ofrecía una cantidad limitada de preguntas, especialmente en ciertas categorías, lo que significa que los resultados reales podrían variar. Los LLM también tienen tendencia a «alucinar» o inventar cosas. Eso es una cosa si es un hecho irrelevante, pero afirmar que hay cataratas o cáncer es otra historia. Como ocurre en muchos casos de uso de LLM, los sistemas también carecen de matices, lo que crea más oportunidades de inexactitud.



Source link-47