{"id":906160,"date":"2023-11-30T00:43:55","date_gmt":"2023-11-30T00:43:55","guid":{"rendered":"https:\/\/magazineoffice.com\/amazon-ofrecera-equipos-de-evaluacion-comparativa-humanos-para-probar-modelos-de-ia\/"},"modified":"2023-11-30T00:43:59","modified_gmt":"2023-11-30T00:43:59","slug":"amazon-ofrecera-equipos-de-evaluacion-comparativa-humanos-para-probar-modelos-de-ia","status":"publish","type":"post","link":"https:\/\/magazineoffice.com\/amazon-ofrecera-equipos-de-evaluacion-comparativa-humanos-para-probar-modelos-de-ia\/","title":{"rendered":"Amazon ofrecer\u00e1 equipos de evaluaci\u00f3n comparativa humanos para probar modelos de IA"},"content":{"rendered":"<p> <br \/>\n<\/p>\n<div>\n<div class=\"duet--article--article-body-component\">\n<p class=\"duet--article--dangerously-set-cms-markup duet--article--standard-paragraph mb-20 font-fkroman text-18 leading-160 -tracking-1 selection:bg-franklin-20 dark:text-white dark:selection:bg-blurple [&#038;_a:hover]:shadow-highlight-franklin dark:[&#038;_a:hover]:shadow-highlight-blurple [&#038;_a]:shadow-underline-black dark:[&#038;_a]:shadow-underline-white\">Amazon quiere que los usuarios eval\u00faen mejor los modelos de IA y alienten a m\u00e1s humanos a participar en el proceso. <\/p>\n<\/div>\n<div class=\"duet--article--article-body-component\">\n<p class=\"duet--article--dangerously-set-cms-markup duet--article--standard-paragraph mb-20 font-fkroman text-18 leading-160 -tracking-1 selection:bg-franklin-20 dark:text-white dark:selection:bg-blurple [&#038;_a:hover]:shadow-highlight-franklin dark:[&#038;_a:hover]:shadow-highlight-blurple [&#038;_a]:shadow-underline-black dark:[&#038;_a]:shadow-underline-white\">Durante la conferencia AWS re: Invent, el vicepresidente de bases de datos, an\u00e1lisis y aprendizaje autom\u00e1tico de AWS, Swami Sivasubramanian, anunci\u00f3 <a rel=\"nofollow noopener\" target=\"_blank\" href=\"https:\/\/aws.amazon.com\/blogs\/aws\/evaluate-compare-and-select-the-best-foundation-models-for-your-use-case-in-amazon-bedrock-preview\/\">Evaluaci\u00f3n del modelo en Bedrock<\/a>, ahora disponible en versi\u00f3n preliminar, para los modelos que se encuentran en su repositorio Amazon Bedrock.  Sin una forma de probar modelos de forma transparente, los desarrolladores pueden terminar usando modelos que no sean lo suficientemente precisos para un proyecto de preguntas y respuestas o que sean demasiado grandes para su caso de uso. <\/p>\n<\/div>\n<div class=\"duet--article--article-body-component\">\n<p class=\"duet--article--dangerously-set-cms-markup duet--article--standard-paragraph mb-20 font-fkroman text-18 leading-160 -tracking-1 selection:bg-franklin-20 dark:text-white dark:selection:bg-blurple [&#038;_a:hover]:shadow-highlight-franklin dark:[&#038;_a:hover]:shadow-highlight-blurple [&#038;_a]:shadow-underline-black dark:[&#038;_a]:shadow-underline-white\">\u00abLa selecci\u00f3n y evaluaci\u00f3n del modelo no se hace s\u00f3lo al principio, sino que es algo que se repite peri\u00f3dicamente\u00bb, dijo Sivasubramanian.  \u00abCreemos que tener un ser humano al tanto es importante, por lo que ofrecemos una forma de gestionar f\u00e1cilmente los flujos de trabajo de evaluaci\u00f3n humana y las m\u00e9tricas del rendimiento del modelo\u00bb.<\/p>\n<\/div>\n<div class=\"duet--article--article-body-component\">\n<p class=\"duet--article--dangerously-set-cms-markup duet--article--standard-paragraph mb-20 font-fkroman text-18 leading-160 -tracking-1 selection:bg-franklin-20 dark:text-white dark:selection:bg-blurple [&#038;_a:hover]:shadow-highlight-franklin dark:[&#038;_a:hover]:shadow-highlight-blurple [&#038;_a]:shadow-underline-black dark:[&#038;_a]:shadow-underline-white\">Sivasubramanian dijo <em>El borde<\/em> en una entrevista separada que a menudo algunos desarrolladores no saben si deber\u00edan usar un modelo m\u00e1s grande para el proyecto porque asumieron que uno m\u00e1s poderoso cubrir\u00eda sus necesidades.  M\u00e1s tarde descubren que podr\u00edan haber construido uno m\u00e1s peque\u00f1o. <\/p>\n<\/div>\n<div class=\"duet--article--article-body-component\">\n<p class=\"duet--article--dangerously-set-cms-markup duet--article--standard-paragraph mb-20 font-fkroman text-18 leading-160 -tracking-1 selection:bg-franklin-20 dark:text-white dark:selection:bg-blurple [&#038;_a:hover]:shadow-highlight-franklin dark:[&#038;_a:hover]:shadow-highlight-blurple [&#038;_a]:shadow-underline-black dark:[&#038;_a]:shadow-underline-white\">La evaluaci\u00f3n del modelo tiene dos componentes: evaluaci\u00f3n automatizada y evaluaci\u00f3n humana.  En la versi\u00f3n automatizada, los desarrolladores pueden acceder a su consola Bedrock y elegir un modelo para probar.  Luego pueden evaluar el rendimiento del modelo en m\u00e9tricas como solidez, precisi\u00f3n o toxicidad para tareas como resumen, clasificaci\u00f3n de texto, preguntas y respuestas y generaci\u00f3n de texto.  Bedrock incluye modelos populares de IA de terceros como Meta&#8217;s Llama 2, Anthropic&#8217;s Claude 2 y Stability AI&#8217;s Stable Diffusion.<\/p>\n<\/div>\n<div class=\"duet--article--article-body-component\">\n<p class=\"duet--article--dangerously-set-cms-markup duet--article--standard-paragraph mb-20 font-fkroman text-18 leading-160 -tracking-1 selection:bg-franklin-20 dark:text-white dark:selection:bg-blurple [&#038;_a:hover]:shadow-highlight-franklin dark:[&#038;_a:hover]:shadow-highlight-blurple [&#038;_a]:shadow-underline-black dark:[&#038;_a]:shadow-underline-white\">Si bien AWS proporciona conjuntos de datos de prueba, los clientes pueden incorporar sus propios datos a la plataforma de evaluaci\u00f3n comparativa para estar mejor informados sobre c\u00f3mo se comportan los modelos.  Luego el sistema genera un informe. <\/p>\n<\/div>\n<div class=\"duet--article--article-body-component\">\n<p class=\"duet--article--dangerously-set-cms-markup duet--article--standard-paragraph mb-20 font-fkroman text-18 leading-160 -tracking-1 selection:bg-franklin-20 dark:text-white dark:selection:bg-blurple [&#038;_a:hover]:shadow-highlight-franklin dark:[&#038;_a:hover]:shadow-highlight-blurple [&#038;_a]:shadow-underline-black dark:[&#038;_a]:shadow-underline-white\">Si hay humanos involucrados, los usuarios pueden optar por trabajar con un equipo de evaluaci\u00f3n humana de AWS o con el suyo propio.  Los clientes deben especificar el tipo de tarea (resumen o generaci\u00f3n de texto, por ejemplo), las m\u00e9tricas de evaluaci\u00f3n y el conjunto de datos que desean utilizar.  AWS proporcionar\u00e1 precios y plazos personalizados para quienes trabajan con su equipo de evaluaci\u00f3n. <\/p>\n<\/div>\n<div class=\"duet--article--article-body-component\">\n<p class=\"duet--article--dangerously-set-cms-markup duet--article--standard-paragraph mb-20 font-fkroman text-18 leading-160 -tracking-1 selection:bg-franklin-20 dark:text-white dark:selection:bg-blurple [&#038;_a:hover]:shadow-highlight-franklin dark:[&#038;_a:hover]:shadow-highlight-blurple [&#038;_a]:shadow-underline-black dark:[&#038;_a]:shadow-underline-white\">Vasi Philomin, vicepresidente de IA generativa de AWS, dijo <em>El borde<\/em> en una entrevista que comprender mejor c\u00f3mo funcionan los modelos gu\u00eda mejor el desarrollo.  Tambi\u00e9n permite a las empresas ver si los modelos no cumplen con algunos est\u00e1ndares responsables de IA, como sensibilidades a la toxicidad m\u00e1s bajas o demasiado altas, antes de construir utilizando el modelo.<\/p>\n<\/div>\n<div class=\"duet--article--article-body-component\">\n<p class=\"duet--article--dangerously-set-cms-markup duet--article--standard-paragraph mb-20 font-fkroman text-18 leading-160 -tracking-1 selection:bg-franklin-20 dark:text-white dark:selection:bg-blurple [&#038;_a:hover]:shadow-highlight-franklin dark:[&#038;_a:hover]:shadow-highlight-blurple [&#038;_a]:shadow-underline-black dark:[&#038;_a]:shadow-underline-white\">\u00abEs importante que los modelos funcionen para nuestros clientes, saber qu\u00e9 modelo se adapta mejor a ellos, y les estamos brindando una manera de evaluarlo mejor\u00bb, dijo Philomin.<\/p>\n<\/div>\n<div class=\"duet--article--article-body-component\">\n<p class=\"duet--article--dangerously-set-cms-markup duet--article--standard-paragraph mb-20 font-fkroman text-18 leading-160 -tracking-1 selection:bg-franklin-20 dark:text-white dark:selection:bg-blurple [&#038;_a:hover]:shadow-highlight-franklin dark:[&#038;_a:hover]:shadow-highlight-blurple [&#038;_a]:shadow-underline-black dark:[&#038;_a]:shadow-underline-white\">Sivasubramanian tambi\u00e9n dijo que cuando los humanos eval\u00faan los modelos de IA, pueden detectar otras m\u00e9tricas que el sistema automatizado no puede, como la empat\u00eda o la amabilidad.<\/p>\n<\/div>\n<div class=\"duet--article--article-body-component\">\n<p class=\"duet--article--dangerously-set-cms-markup duet--article--standard-paragraph mb-20 font-fkroman text-18 leading-160 -tracking-1 selection:bg-franklin-20 dark:text-white dark:selection:bg-blurple [&#038;_a:hover]:shadow-highlight-franklin dark:[&#038;_a:hover]:shadow-highlight-blurple [&#038;_a]:shadow-underline-black dark:[&#038;_a]:shadow-underline-white\">AWS no requerir\u00e1 que todos los clientes comparen los modelos, dijo Philomin, ya que algunos desarrolladores pueden haber trabajado antes con algunos de los modelos b\u00e1sicos en Bedrock o tener una idea de lo que los modelos pueden hacer por ellos.  Las empresas que todav\u00eda est\u00e1n explorando qu\u00e9 modelos utilizar podr\u00edan beneficiarse del proceso de evaluaci\u00f3n comparativa. <\/p>\n<\/div>\n<div class=\"duet--article--article-body-component\">\n<p class=\"duet--article--dangerously-set-cms-markup duet--article--standard-paragraph mb-20 font-fkroman text-18 leading-160 -tracking-1 selection:bg-franklin-20 dark:text-white dark:selection:bg-blurple [&#038;_a:hover]:shadow-highlight-franklin dark:[&#038;_a:hover]:shadow-highlight-blurple [&#038;_a]:shadow-underline-black dark:[&#038;_a]:shadow-underline-white\">AWS dijo que mientras el servicio de evaluaci\u00f3n comparativa est\u00e9 en versi\u00f3n preliminar, solo cobrar\u00e1 por la inferencia del modelo utilizada durante la evaluaci\u00f3n. <\/p>\n<\/div>\n<div class=\"duet--article--article-body-component\">\n<p class=\"duet--article--dangerously-set-cms-markup duet--article--standard-paragraph mb-20 font-fkroman text-18 leading-160 -tracking-1 selection:bg-franklin-20 dark:text-white dark:selection:bg-blurple [&#038;_a:hover]:shadow-highlight-franklin dark:[&#038;_a:hover]:shadow-highlight-blurple [&#038;_a]:shadow-underline-black dark:[&#038;_a]:shadow-underline-white\">Si bien no existe un est\u00e1ndar particular para comparar los modelos de IA, existen m\u00e9tricas espec\u00edficas que algunas industrias generalmente aceptan.  Philomin dijo que el objetivo de la evaluaci\u00f3n comparativa en Bedrock no es evaluar modelos de manera amplia sino ofrecer a las empresas una forma de medir el impacto de un modelo en sus proyectos. <\/p>\n<\/div>\n<\/div>\n<p><br \/>\n<br \/><a href=\"https:\/\/www.theverge.com\/2023\/11\/29\/23981129\/amazon-aws-ai-model-evaluation-bias-toxicity\" target=\"_blank\" rel=\"noopener\">Source link-37 <\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Amazon quiere que los usuarios eval\u00faen mejor los modelos de IA y alienten a m\u00e1s humanos a participar en el proceso. Durante la conferencia AWS re: Invent, el vicepresidente de&hellip;<\/p>\n","protected":false},"author":1,"featured_media":906161,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[21980],"tags":[1050,29241,215,23930,3275,10010,13702,107,4360],"_links":{"self":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/906160"}],"collection":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/comments?post=906160"}],"version-history":[{"count":1,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/906160\/revisions"}],"predecessor-version":[{"id":906162,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/906160\/revisions\/906162"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/media\/906161"}],"wp:attachment":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/media?parent=906160"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/categories?post=906160"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/tags?post=906160"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}