MLCommons lanza una nueva plataforma para comparar modelos médicos de IA


Con la pandemia actuando como un acelerador, la industria de la salud está adoptando la IA con entusiasmo. Según una encuesta de 2020 realizada por Optum, el 80 % de las organizaciones de atención médica cuentan con una estrategia de inteligencia artificial, mientras que otro 15 % planea lanzar una.

Los proveedores, incluidas las grandes empresas tecnológicas, están aumentando para satisfacer la demanda. Google presentó recientemente Med-PaLM 2, un modelo de IA diseñado para responder preguntas médicas y encontrar información en textos médicos. En otros lugares, nuevas empresas como Hippocratic y OpenEvidence están desarrollando modelos para ofrecer consejos prácticos a los médicos en el campo.

Pero a medida que salen al mercado más modelos ajustados a los casos de uso médico, se vuelve cada vez más difícil saber qué modelos, si es que hay alguno, funcionan como se anuncia. Debido a que los modelos médicos a menudo se entrenan con datos de entornos clínicos limitados y estrechos (por ejemplo, hospitales a lo largo de la costa este), algunos muestran sesgos hacia ciertas poblaciones de pacientes, generalmente minorías, lo que genera impactos dañinos en el mundo real.

En un esfuerzo por establecer una forma confiable y confiable de comparar y evaluar modelos médicos, MLCommons, el consorcio de ingeniería centrado en la creación de herramientas para las métricas de la industria de IA, ha diseñado una nueva plataforma de prueba llamada MedPerf. MedPerf, dice MLCommons, puede evaluar modelos de IA en «diversos datos médicos del mundo real» mientras protege la privacidad del paciente.

“Nuestro objetivo es utilizar la evaluación comparativa como una herramienta para mejorar la IA médica”, dijo Alex Karargyris, copresidente de MLCommons Medical Working Group, que encabezó MedPerf, en un comunicado de prensa. “Las pruebas neutrales y científicas de modelos en conjuntos de datos grandes y diversos pueden mejorar la efectividad, reducir el sesgo, generar confianza pública y respaldar el cumplimiento normativo”.

MedPerf, el resultado de una colaboración de dos años dirigida por el Grupo de trabajo médico, se creó con aportes de la industria y la academia: más de 20 empresas y más de 20 instituciones académicas dieron su opinión, según MLCommons. (Los miembros del Grupo de Trabajo Médico abarcan grandes corporaciones como Google, Amazon, IBM e Intel, así como universidades como Brigham and Women’s Hospital, Stanford y MIT).

A diferencia de las suites de evaluación comparativa de IA de propósito general de MLCommons, como MLPerf, MedPerf está diseñado para ser utilizado por los operadores y clientes de modelos médicos (organizaciones de atención médica) en lugar de proveedores. Los hospitales y clínicas en la plataforma MedPerf pueden evaluar modelos de IA a pedido, empleando una «evaluación federada» para implementar modelos de forma remota y evaluarlos en las instalaciones.

MedPerf admite bibliotecas de aprendizaje automático populares además de modelos privados y modelos disponibles solo a través de una API, como los de Epic y Azure OpenAI Services de Microsoft.

Una ilustración de cómo funciona la plataforma MedPerf en la práctica. Créditos de imagen: MLCommons

En una prueba del sistema a principios de este año, MedPerf organizó el desafío Federated Tumor Segmentation (FeTS) financiado por los NIH, una gran comparación de modelos para evaluar el tratamiento posoperatorio del glioblastoma (un tumor cerebral agresivo). MedPerf apoyó la prueba de 41 modelos diferentes este año, que se ejecutaron tanto en las instalaciones como en la nube, en 32 sitios de atención médica en seis continentes.

Según MLCommons, todos los modelos mostraron un rendimiento reducido en sitios con datos demográficos de pacientes diferentes a aquellos en los que fueron capacitados, lo que revela los sesgos contenidos en ellos.

«Es emocionante ver los resultados de los estudios piloto de IA médica de MedPerf, donde todos los modelos se ejecutaron en los sistemas del hospital, aprovechando los estándares de datos acordados previamente, sin compartir ningún dato», Renato Umeton, director de operaciones de IA en el Instituto del Cáncer Dana-Farber y otro copresidente del Grupo de trabajo médico de MLCommons, dijo en un comunicado. “Los resultados refuerzan que los puntos de referencia a través de la evaluación federada son un paso en la dirección correcta hacia una medicina habilitada por IA más inclusiva”.

MLCommons ve a MedPerf, que en la actualidad se limita principalmente a evaluar modelos de análisis de escaneo de radiología, como un «paso fundamental» hacia su misión de acelerar la IA médica a través de «enfoques abiertos, neutrales y científicos». Hace un llamado a los investigadores de IA para que usen la plataforma para validar sus propios modelos en instituciones de atención médica y propietarios de datos para registrar los datos de sus pacientes para aumentar la solidez de las pruebas de MedPerf.

Pero este escritor se pregunta si, suponiendo que MedPerf funcione como se anuncia, lo cual no es seguro, si la plataforma realmente aborda los problemas intratables de la IA para la atención médica.

Un reciente informe revelador compilado por investigadores de la Universidad de Duke revela una gran brecha entre la comercialización de la IA y los meses, a veces años, de esfuerzo que se necesitan para que la tecnología funcione de la manera correcta. A menudo, según el informe, la dificultad radica en descubrir cómo incorporar la tecnología en las rutinas diarias de médicos y enfermeras y los complicados sistemas técnicos y de atención que los rodean.

No es un problema nuevo. En 2020, Google publicó un documento técnico sorprendentemente sincero que detallaba las razones por las que su herramienta de detección de retinopatía diabética de IA no se quedó a la altura de las pruebas de la vida real. Los obstáculos no recaían necesariamente en los modelos, sino en las formas en que los hospitales implementaron sus equipos, la potencia de la conectividad a Internet e incluso cómo respondieron los pacientes a la evaluación asistida por IA.

Como era de esperar, los profesionales de la salud, no las organizaciones, tienen sentimientos encontrados sobre la IA en la atención médica. Una encuesta de Yahoo Finance encontró que el 55 % cree que la tecnología no está lista para usarse y solo el 26 % cree que se puede confiar en ella.

Eso no quiere decir que el sesgo del modelo médico no sea un problema real, lo es y tiene consecuencias. Se ha descubierto que sistemas como el de Epic para identificar casos de sepsis, por ejemplo, pasan por alto muchos casos de la enfermedad y con frecuencia emiten falsas alarmas. También es cierto que obtener acceso a datos médicos diversos y actualizados fuera de los repositorios gratuitos para pruebas de modelos no ha sido fácil para organizaciones que no son del tamaño de, por ejemplo, Google o Microsoft.

Pero no es prudente poner demasiado valor en una plataforma como MedPerf en lo que respecta a la salud de las personas. Después de todo, los puntos de referencia solo cuentan una parte de la historia. La implementación segura de modelos médicos requiere una auditoría continua y exhaustiva por parte de los proveedores y sus clientes, sin mencionar a los investigadores. La ausencia de tales pruebas es poco menos que irresponsable.



Source link-48