ChatGPT aprueba el paso 1 del examen de licencia médica, pero apenas


Imagen: Miriam Doerr Martín Frommherz (Shutterstock)

Cualquiera que contenga ansiosamente la respiración por un robot competente Es posible que el médico deba esperar un poco más. Un grupo de investigadores de IA de AnsibleHealth puso recientemente OpenAI’s ChatGPT a la prueba contra un importante examen de licencia médica y los resultados están listos. El chatbot de IA técnicamente pasó, pero por la piel de sus dientes. Cuando se trata de exámenes médicos, incluso la nueva IA más impresionante todavía se desempeña en un nivel D. Los investigadores dicen que la falta de brillo es sin embargo un logro histórico para la IA.

Los investigadores probado ChatGPT en el Examen de Licencias Médicas de los Estados Unidos (USMLE), un serie estandarizada de tres exámenes requeridos para los médicos estadounidenses que compiten por una licencia médica. ChatGPT logró una puntuación de entre el 52,4 % y el 75 % en los tres niveles del examen. Puede que eso no suene muy bien para todos los que tienen un gran rendimiento, pero está a la par con el umbral de aprobación del 60% para el examen. Los investigadores involucrados en el estudio afirman que esto marca la primera vez que la IA pudo desempeñarse en o cerca del umbral de aprobación para el examen notoriamente difícil. Crucialmente, ChatGPT pudo pasar sin ningún aporte especializado adicional de entrenadores humanos.

“Alcanzar la calificación aprobatoria para este examen experto notoriamente difícil, y hacerlo sin ningún refuerzo humano, marca un hito notable en la maduración clínica de la IA”, escribieron los autores en la revista. PLOS Salud Digital.

Dejando a un lado los puntajes mediocres de las pruebas, los investigadores elogiaron a ChatGPT por su capacidad para crear respuestas originales que suenan auténticas. ChatGPT logró crear «percepciones nuevas, no obvias y clínicamente válidas» para el 88,9% de sus respuestas y pareció mostrar evidencia de razonamiento deductivo, cadena de pensamiento y habilidades de dependencia a largo plazo. Esos hallazgos parecen algo exclusivos de ChatGPT y su estilo particular de aprendizaje de IA. A diferencia de las generaciones anteriores de sistemas que utilizan modelos de aprendizaje profundo, ChatGPT se basa en un gran modelo de lenguaje entrenado para predecir una secuencia de palabras en función del contexto de las palabras anteriores. Eso significa que, a diferencia de otras IAs, ChatGPT en realidad puede generar secuencias de palabras que el algoritmo no había visto previamente y que podrían tener algún sentido coherente.

Los complicados exámenes USMLE evalúan a los participantes en ciencias básicas, razonamiento clínico, administración médica, y bioética. Ellos son más amenudo tomadas por estudiantes de medicina y médicos en formación. Estos exámenes también son estandarizados y regulados, lo que los hace particularmente adecuados para probar las capacidades de ChatGPT, dijeron los investigadores. Una cosa los exámenes definitivamente no son es fácil. Los estudiantes humanos generalmente pasan alrededor de 300 a 400 horas estresantes leyendo literatura científica densa y material de prueba en preparación solo para el examen del Paso 1, el primero de el tres.

Sorprendentemente, ChatGPT logró superar a PubMedGPT, otro gran modelo de lenguaje AI entrenado exclusivamente en literatura biomédica. Eso puede parecer contradictorio al principio, pero los investigadores dicen que el entrenamiento más generalizado de ChatGPT en realidad puede darle una ventaja porque está potencialmente expuesto a una gama más amplia de contenido clínico, como manuales de enfermedades que enfrentan los pacientes o prospectos de medicamentos. Los investigadores creen con optimismo que la calificación aceptable de ChatGPT podría insinuar un futuro en el que los sistemas de IA puedan desempeñar un papel de asistencia en la educación médica. Eso ya está sucediendo en un nivel pequeño, escriben, citando un ejemplo reciente de médicos de AnsibleHealth que usan la herramienta para reescribir informes densos y llenos de jerga.

“Nuestro estudio sugiere que los modelos de lenguaje extenso como ChatGPT pueden ayudar potencialmente a los estudiantes humanos en un entorno de educación médica, como preludio de la integración futura en la toma de decisiones clínicas”, dijeron los investigadores.

En un giro bastante meta, ChatGPT no solo tenía la tarea de realizar el examen médico. El sistema también participó en la redacción del eventual documento de investigación que documenta su desempeño. Los investigadores dicen que interactuaron con ChatGPT, «como un colega» y se apoyaron en él para sintetizar y simplificar su borrador e incluso proporcionar contrapuntos.

“Todos los coautores valoraron el aporte de ChatGPT”, escribió Tiffany Kung, una de las investigadoras.

ChatGPT: Mediocre en escritura, pésimo en matemáticas

ChatGPT tiene agregó una cantidad impresionante de calificaciones aprobatorias a su pared de trofeos educativos en los últimos meses. El mes pasado, ChatGPT administrado obtener una puntuación entre B y B menos en un examen de nivel de MBA dado a estudiantes de negocios en la prestigiosa Escuela Wharton de la Universidad de Pensilvania. Casi al mismo tiempo, la IA logrado una calificación aprobatoria en un examen de derecho dado a los estudiantes de la Facultad de Derecho de la Universidad de Minnesota. En el caso del examen de derecho, ChatGPT eludió con una C+.

«Solo, ChatGPT sería un estudiante de derecho bastante mediocre», dijo el autor principal del estudio, Jonathan Choi, en un entrevista con Reuters. «El mayor potencial para la profesión aquí es que un abogado podría usar ChatGPT para producir un primer borrador y hacer que su práctica sea mucho más efectiva».

ChatGPT podría obtener puntajes aceptables en los exámenes centrados en la escritura y la comprensión de lectura, pero las matemáticas son otra bestia por completo. A pesar de su impresionante capacidad para sacar artículos académicos y prosa semi-concebida, investigadores digamos que la IA solo se desempeña aproximadamente a un nivel de sexto grado cuando se trata de matemáticas. A ChatGPT le va aún peor cuando se le preguntan problemas aritméticos básicos en formato de lenguaje natural. Ese tropiezo proviene de su gran capacidad predictiva entrenamiento del modelo de lenguaje. ChatGPT, por supuesto, le proporcionará con confianza una respuesta a su problema matemático, pero podría estar completamente divorciado de la realidad.

Las respuestas excéntricas de ChatGPT en el momento son lo que tienen los ingenieros senior de Google y otros en el campo. referido a, con cautela, como «alucinaciones» de IA. Estas alucinaciones de IA crean respuestas que parecen convincentes pero son parcial o completamente inventado, lo que no es exactamente una buena señal para cualquiera que busque IA autorizadas en campos de alto riesgo como la medicina y el derecho.

«Él [ChatGPT] actúa como un experto y, a veces, puede proporcionar una personificación convincente de uno”, dijo el profesor de la Universidad de Texas Paul von Hippel en un reciente entrevista con El periodico de Wall Street. “Pero a menudo es una especie de artista bs, que mezcla la verdad, el error y la fabricación de una manera que puede sonar convincente a menos que tengas algo de experiencia”.



Source link-45