Amazon ofrecerá equipos de evaluación comparativa humanos para probar modelos de IA


Amazon quiere que los usuarios evalúen mejor los modelos de IA y alienten a más humanos a participar en el proceso.

Durante la conferencia AWS re: Invent, el vicepresidente de bases de datos, análisis y aprendizaje automático de AWS, Swami Sivasubramanian, anunció Evaluación del modelo en Bedrock, ahora disponible en versión preliminar, para los modelos que se encuentran en su repositorio Amazon Bedrock. Sin una forma de probar modelos de forma transparente, los desarrolladores pueden terminar usando modelos que no sean lo suficientemente precisos para un proyecto de preguntas y respuestas o que sean demasiado grandes para su caso de uso.

«La selección y evaluación del modelo no se hace sólo al principio, sino que es algo que se repite periódicamente», dijo Sivasubramanian. «Creemos que tener un ser humano al tanto es importante, por lo que ofrecemos una forma de gestionar fácilmente los flujos de trabajo de evaluación humana y las métricas del rendimiento del modelo».

Sivasubramanian dijo El borde en una entrevista separada que a menudo algunos desarrolladores no saben si deberían usar un modelo más grande para el proyecto porque asumieron que uno más poderoso cubriría sus necesidades. Más tarde descubren que podrían haber construido uno más pequeño.

La evaluación del modelo tiene dos componentes: evaluación automatizada y evaluación humana. En la versión automatizada, los desarrolladores pueden acceder a su consola Bedrock y elegir un modelo para probar. Luego pueden evaluar el rendimiento del modelo en métricas como solidez, precisión o toxicidad para tareas como resumen, clasificación de texto, preguntas y respuestas y generación de texto. Bedrock incluye modelos populares de IA de terceros como Meta’s Llama 2, Anthropic’s Claude 2 y Stability AI’s Stable Diffusion.

Si bien AWS proporciona conjuntos de datos de prueba, los clientes pueden incorporar sus propios datos a la plataforma de evaluación comparativa para estar mejor informados sobre cómo se comportan los modelos. Luego el sistema genera un informe.

Si hay humanos involucrados, los usuarios pueden optar por trabajar con un equipo de evaluación humana de AWS o con el suyo propio. Los clientes deben especificar el tipo de tarea (resumen o generación de texto, por ejemplo), las métricas de evaluación y el conjunto de datos que desean utilizar. AWS proporcionará precios y plazos personalizados para quienes trabajan con su equipo de evaluación.

Vasi Philomin, vicepresidente de IA generativa de AWS, dijo El borde en una entrevista que comprender mejor cómo funcionan los modelos guía mejor el desarrollo. También permite a las empresas ver si los modelos no cumplen con algunos estándares responsables de IA, como sensibilidades a la toxicidad más bajas o demasiado altas, antes de construir utilizando el modelo.

«Es importante que los modelos funcionen para nuestros clientes, saber qué modelo se adapta mejor a ellos, y les estamos brindando una manera de evaluarlo mejor», dijo Philomin.

Sivasubramanian también dijo que cuando los humanos evalúan los modelos de IA, pueden detectar otras métricas que el sistema automatizado no puede, como la empatía o la amabilidad.

AWS no requerirá que todos los clientes comparen los modelos, dijo Philomin, ya que algunos desarrolladores pueden haber trabajado antes con algunos de los modelos básicos en Bedrock o tener una idea de lo que los modelos pueden hacer por ellos. Las empresas que todavía están explorando qué modelos utilizar podrían beneficiarse del proceso de evaluación comparativa.

AWS dijo que mientras el servicio de evaluación comparativa esté en versión preliminar, solo cobrará por la inferencia del modelo utilizada durante la evaluación.

Si bien no existe un estándar particular para comparar los modelos de IA, existen métricas específicas que algunas industrias generalmente aceptan. Philomin dijo que el objetivo de la evaluación comparativa en Bedrock no es evaluar modelos de manera amplia sino ofrecer a las empresas una forma de medir el impacto de un modelo en sus proyectos.



Source link-37