Prueba de bomba ChatGPT en el diagnóstico de casos médicos de niños con una tasa de error del 83%


Agrandar / El Dr. Greg House tiene una mejor tasa de diagnóstico preciso de pacientes que ChatGPT.

ChatGPT todavía no existe en House, MD.

Si bien el hablador robot de IA ha fracasado anteriormente con sus intentos de diagnosticar casos médicos desafiantes (con una tasa de precisión del 39 por ciento en un análisis del año pasado), un estudio publicado esta semana en JAMA Pediatrics sugiere que la cuarta versión del modelo de lenguaje grande es especialmente mala. con niños. Tenía una tasa de precisión de sólo el 17 por ciento al diagnosticar casos médicos pediátricos.

La baja tasa de éxito sugiere que los pediatras humanos no se quedarán sin trabajo en el corto plazo, en caso de que eso fuera una preocupación. Como lo expresan los autores: «[T]»Este estudio subraya el papel invaluable que desempeña la experiencia clínica». Pero también identifica las debilidades críticas que llevaron a la alta tasa de error de ChatGPT y las formas de transformarlo en una herramienta útil en la atención clínica. Con tanto interés y experimentación con chatbots de IA, muchos Los pediatras y otros médicos consideran inevitable su integración en la atención clínica.

En general, el campo médico ha sido uno de los primeros en adoptar tecnologías impulsadas por la IA, lo que ha dado lugar a algunos fracasos notables, como la creación de sesgos raciales algorítmicos, así como a éxitos, como la automatización de tareas administrativas y la ayuda a interpretar escáneres de tórax e imágenes de retina. También hay mucho en el medio. Pero el potencial de la IA para la resolución de problemas ha despertado un interés considerable en convertirla en una herramienta útil para diagnósticos complejos, sin necesidad de un genio médico excéntrico, quisquilloso y que tome pastillas.

En el nuevo estudio realizado por investigadores del Centro Médico Infantil Cohen en Nueva York, ChatGPT-4 demostró que aún no está listo para diagnósticos pediátricos. En comparación con los casos generales, los casos pediátricos requieren una mayor consideración de la edad del paciente, señalan los investigadores. Y como cualquier padre sabe, diagnosticar afecciones en bebés y niños pequeños es especialmente difícil cuando no pueden identificar o articular todos los síntomas que experimentan.

Para el estudio, los investigadores compararon el chatbot con 100 desafíos de casos pediátricos publicados en JAMA Pediatrics y NEJM entre 2013 y 2023. Estos son casos médicos publicados como desafíos o cuestionarios. Se invita a los médicos que lean el libro a intentar llegar al diagnóstico correcto de un caso complejo o inusual basándose en la información que tenían los médicos tratantes en ese momento. A veces, las publicaciones también explican cómo los médicos llegaron al diagnóstico correcto.

Conexiones perdidas

Para la prueba de ChatGPT, los investigadores pegaron el texto relevante de los casos médicos en el mensaje, y luego dos investigadores médicos calificados calificaron las respuestas generadas por la IA como correctas, incorrectas o «no capturaron completamente el diagnóstico». En el último caso, a ChatGPT se le ocurrió una condición clínicamente relacionada que era demasiado amplia o inespecífica para ser considerada el diagnóstico correcto. Por ejemplo, ChatGPT diagnosticó el caso de un niño como causado por un quiste de hendidura branquial (un bulto en el cuello o debajo de la clavícula) cuando el diagnóstico correcto fue síndrome branquio-oto-renal, una condición genética que causa el desarrollo anormal del tejido en el cuello, y malformaciones en oídos y riñones. Uno de los signos de la afección es la formación de quistes de hendidura branquial.

En general, ChatGPT obtuvo la respuesta correcta en sólo 17 de los 100 casos. Fue claramente erróneo en 72 casos y no captó completamente el diagnóstico de los 11 casos restantes. Entre los 83 diagnósticos erróneos, 47 (57 por ciento) estaban en el mismo sistema de órganos.

Entre los fracasos, los investigadores notaron que ChatGPT parecía tener dificultades para detectar relaciones conocidas entre condiciones que, con suerte, un médico experimentado detectaría. Por ejemplo, en un caso médico no estableció la conexión entre el autismo y el escorbuto (deficiencia de vitamina C). Las condiciones neuropsiquiátricas, como el autismo, pueden llevar a dietas restringidas y eso, a su vez, puede provocar deficiencias vitamínicas. Como tales, las afecciones neuropsiquiátricas son factores de riesgo notables para el desarrollo de deficiencias vitamínicas en niños que viven en países de altos ingresos, y los médicos deben estar atentos a ellas. Mientras tanto, ChatGPT llegó al diagnóstico de una rara enfermedad autoinmune.

Aunque el chatbot tuvo problemas en esta prueba, los investigadores sugieren que podría mejorar si se le capacitara específica y selectivamente en literatura médica precisa y confiable, no en material de Internet, que puede incluir información inexacta y desinformación. También sugieren que los chatbots podrían mejorar con un mayor acceso en tiempo real a los datos médicos, lo que permitiría a los modelos perfeccionar su precisión, lo que se describe como «ajuste».

«Esto presenta una oportunidad para que los investigadores investiguen si la capacitación y el ajuste de datos médicos específicos pueden mejorar la precisión del diagnóstico de los chatbots basados ​​en LLM», concluyen los autores.



Source link-49