{"id":192484,"date":"2022-09-25T18:13:26","date_gmt":"2022-09-25T18:13:26","guid":{"rendered":"https:\/\/magazineoffice.com\/ia-multilingue-risuena-pitfall-y-callejera-techcrunch\/"},"modified":"2022-09-25T18:13:28","modified_gmt":"2022-09-25T18:13:28","slug":"ia-multilingue-risuena-pitfall-y-callejera-techcrunch","status":"publish","type":"post","link":"https:\/\/magazineoffice.com\/ia-multilingue-risuena-pitfall-y-callejera-techcrunch\/","title":{"rendered":"IA multiling\u00fce, risue\u00f1a, pitfall y callejera \u2022 TechCrunch"},"content":{"rendered":"


\n<\/p>\n

\n

La investigaci\u00f3n en el campo del aprendizaje autom\u00e1tico y la IA, ahora una tecnolog\u00eda clave en pr\u00e1cticamente todas las industrias y empresas, es demasiado voluminosa para que alguien la lea en su totalidad. Esta columna, Perceptron, tiene como objetivo recopilar algunos de los descubrimientos y documentos recientes m\u00e1s relevantes, particularmente en inteligencia artificial, entre otros, y explicar por qu\u00e9 son importantes.<\/p>\n

Durante las \u00faltimas semanas, los investigadores de Google han demostrado un sistema de IA, PaLI, que puede realizar muchas tareas en m\u00e1s de 100 idiomas. En otro lugar, un grupo con sede en Berl\u00edn lanz\u00f3 un proyecto llamado Source+ que est\u00e1 dise\u00f1ado como una forma de permitir que los artistas, incluidos los artistas visuales, m\u00fasicos y escritores, opten por permitir que su trabajo se use como datos de entrenamiento para la IA.<\/p>\n

Los sistemas de IA como GPT-3 de OpenAI pueden generar texto bastante sensato o resumir texto existente de la web, libros electr\u00f3nicos y otras fuentes de informaci\u00f3n. Pero hist\u00f3ricamente se han limitado a un solo idioma, lo que limita tanto su utilidad como su alcance.<\/p>\n

Afortunadamente, en los \u00faltimos meses, la investigaci\u00f3n sobre sistemas multiling\u00fces se ha acelerado, impulsada en parte por esfuerzos comunitarios como Hugging Face’s Bloom. En un intento de aprovechar estos avances en el multiling\u00fcismo, un equipo de Google cre\u00f3 PaLI, que fue capacitado tanto en im\u00e1genes como en texto para realizar tareas como subt\u00edtulos de im\u00e1genes, detecci\u00f3n de objetos y reconocimiento \u00f3ptico de caracteres.<\/p>\n

\n

Cr\u00e9ditos de imagen:<\/strong> Google<\/p>\n<\/div>\n

Google afirma que PaLI puede comprender 109 idiomas y las relaciones entre las palabras en esos idiomas y las im\u00e1genes, lo que le permite, por ejemplo, subtitular una imagen de una postal en franc\u00e9s. Si bien el trabajo permanece firmemente en las fases de investigaci\u00f3n, los creadores dicen que ilustra la importante interacci\u00f3n entre el lenguaje y las im\u00e1genes, y podr\u00eda establecer una base para un producto comercial en el futuro.<\/p>\n

El habla es otro aspecto del lenguaje en el que la IA mejora constantemente. Play.ht mostr\u00f3 recientemente un nuevo modelo de texto a voz que pone una notable cantidad de emoci\u00f3n y variedad en sus resultados. Los clips que public\u00f3 la semana pasada suenan fant\u00e1sticos, aunque, por supuesto, est\u00e1n cuidadosamente seleccionados.<\/p>\n

Generamos un clip propio usando la introducci\u00f3n de este art\u00edculo, y los resultados siguen siendo s\u00f3lidos:<\/p>\n


\n

Todav\u00eda no est\u00e1 claro exactamente para qu\u00e9 ser\u00e1 m\u00e1s \u00fatil este tipo de generaci\u00f3n de voz. Todav\u00eda no estamos en la etapa en la que hacen libros completos, o mejor dicho, pueden hacerlo, pero puede que todav\u00eda no sea la primera opci\u00f3n de nadie. Pero a medida que aumenta la calidad, las aplicaciones se multiplican.<\/p>\n

Mat Dryhurst y Holly Herndon, acad\u00e9mico y m\u00fasico, respectivamente, se asociaron con la organizaci\u00f3n Spawning para lanzar Source+, un est\u00e1ndar que esperan llame la atenci\u00f3n sobre el problema de los sistemas de IA que generan fotograf\u00edas creados con obras de arte de artistas que no estaban informados o pidi\u00f3 permiso. Source+, que no cuesta nada, tiene como objetivo permitir que los artistas no permitan que su trabajo se use con fines de entrenamiento de IA si as\u00ed lo desean.<\/p>\n

Los sistemas de generaci\u00f3n de im\u00e1genes como Stable Diffusion y DALL-E 2 se entrenaron en miles de millones de im\u00e1genes extra\u00eddas de la web para \u00abaprender\u00bb a traducir indicaciones de texto en arte. Algunas de estas im\u00e1genes provienen de comunidades de arte p\u00fablico como ArtStation y DeviantArt, no necesariamente con el conocimiento de los artistas, e imbuyeron los sistemas con la capacidad de imitar a creadores particulares, incluidos artistas como Greg Rutowski.<\/p>\n

\"Estabilidad<\/p>\n

Muestras de difusi\u00f3n estable.<\/p>\n<\/div>\n

Debido a la habilidad de los sistemas para imitar estilos art\u00edsticos, algunos creadores temen que puedan amenazar los medios de subsistencia. Source+, si bien es voluntario, podr\u00eda ser un paso para dar a los artistas una mayor opini\u00f3n sobre c\u00f3mo se usa su arte, dicen Dryhurst y Herndon, suponiendo que se adopte a escala (un gran si).<\/p>\n

En DeepMind, un equipo de investigaci\u00f3n est\u00e1 intentando resolver otro aspecto problem\u00e1tico de larga data de la IA: su tendencia a arrojar informaci\u00f3n t\u00f3xica y enga\u00f1osa. Centr\u00e1ndose en el texto, el equipo desarroll\u00f3 un chatbot llamado Sparrow que puede responder preguntas comunes al buscar en la web con Google. Otros sistemas de vanguardia como LaMDA de Google pueden hacer lo mismo, pero DeepMind afirma que Sparrow brinda respuestas plausibles y no t\u00f3xicas a las preguntas con m\u00e1s frecuencia que sus contrapartes.<\/p>\n

El truco estaba en alinear el sistema con las expectativas de la gente. DeepMind reclut\u00f3 a personas para usar Sparrow y luego les pidi\u00f3 que proporcionaran comentarios para entrenar un modelo de cu\u00e1n \u00fatiles fueron las respuestas, mostrando a los participantes m\u00faltiples respuestas a la misma pregunta y pregunt\u00e1ndoles qu\u00e9 respuesta les gust\u00f3 m\u00e1s. Los investigadores tambi\u00e9n definieron reglas para Sparrow, como \u00abno hacer declaraciones amenazantes\u00bb y \u00abno hacer comentarios de odio o insultos\u00bb, que hicieron que los participantes impusieran al sistema tratando de enga\u00f1arlo para que rompiera las reglas.<\/p>\n

\"\"<\/p>\n

Ejemplo del gorri\u00f3n de DeepMind teniendo una conversaci\u00f3n.<\/p>\n<\/div>\n

DeepMind reconoce que Sparrow tiene margen de mejora. Pero en un estudio, el equipo descubri\u00f3 que el chatbot proporcion\u00f3 una respuesta \u00abplausible\u00bb respaldada con evidencia el 78 % de las veces cuando se le hizo una pregunta objetiva y solo rompi\u00f3 las reglas antes mencionadas el 8 % de las veces. Eso es mejor que el sistema de di\u00e1logo original de DeepMind, se\u00f1alan los investigadores, que romp\u00eda las reglas aproximadamente tres veces m\u00e1s a menudo cuando se enga\u00f1aba para hacerlo.<\/p>\n

Un equipo separado en DeepMind abord\u00f3 un dominio muy diferente recientemente: los videojuegos que hist\u00f3ricamente han sido dif\u00edciles de dominar r\u00e1pidamente para la IA. Su sistema, descaradamente llamado MEME, supuestamente logr\u00f3 un rendimiento de \u00abnivel humano\u00bb en 57 juegos diferentes de Atari 200 veces m\u00e1s r\u00e1pido que el mejor sistema anterior.<\/p>\n

De acuerdo con el art\u00edculo de DeepMind que detalla MEME, el sistema puede aprender a jugar observando aproximadamente 390 millones de fotogramas, \u00abfotogramas\u00bb que se refieren a las im\u00e1genes fijas que se actualizan muy r\u00e1pidamente para dar la impresi\u00f3n de movimiento. Eso puede parecer mucho, pero la t\u00e9cnica de vanguardia anterior requer\u00eda 80 mil millones <\/em>fotogramas en la misma cantidad de juegos de Atari.<\/p>\n

\"MEME\"<\/p>\n

Cr\u00e9ditos de imagen:<\/strong> Mente profunda<\/p>\n<\/div>\n

Jugar h\u00e1bilmente a Atari puede no parecer una habilidad deseable. Y, de hecho, algunos cr\u00edticos argumentan que los juegos son un punto de referencia de IA defectuoso debido a su abstracci\u00f3n y relativa simplicidad. Pero los laboratorios de investigaci\u00f3n como DeepMind creen que los enfoques podr\u00edan aplicarse a otras \u00e1reas m\u00e1s \u00fatiles en el futuro, como los robots que aprenden a realizar tareas de manera m\u00e1s eficiente viendo videos o autos que se conducen solos y se mejoran a s\u00ed mismos.<\/p>\n

Nvidia tuvo un d\u00eda de campo el d\u00eda 20 anunciando docenas de productos y servicios, entre ellos varios esfuerzos interesantes de IA. Los autos sin conductor son uno de los enfoques de la compa\u00f1\u00eda, tanto para impulsar la IA como para entrenarla. Para estos \u00faltimos, los simuladores son cruciales y tambi\u00e9n es importante que las carreteras virtuales se parezcan a las reales. Describen un flujo de contenido nuevo y mejorado que acelera la transferencia de datos recopilados por c\u00e1maras y sensores en autom\u00f3viles reales al \u00e1mbito digital.<\/p>\n

\"\"<\/p>\n

Un entorno de simulaci\u00f3n basado en datos del mundo real.<\/p>\n<\/div>\n

Cosas como los veh\u00edculos del mundo real y las irregularidades en la carretera o la cubierta de \u00e1rboles se pueden reproducir con precisi\u00f3n, por lo que la IA aut\u00f3noma no aprende en una versi\u00f3n desinfectada de la calle. Y hace posible crear configuraciones de simulaci\u00f3n m\u00e1s grandes y variables en general, lo que ayuda a la robustez. (Otra imagen de \u00e9l est\u00e1 arriba).<\/p>\n

Nvidia tambi\u00e9n present\u00f3 su sistema IGX para plataformas aut\u00f3nomas en situaciones industriales: colaboraci\u00f3n hombre-m\u00e1quina como la que podr\u00eda encontrar en una f\u00e1brica. No hay escasez de estos, por supuesto, pero a medida que aumenta la complejidad de las tareas y los entornos operativos, los m\u00e9todos antiguos ya no son suficientes y las empresas que buscan mejorar su automatizaci\u00f3n est\u00e1n buscando pruebas de futuro.<\/p>\n

\"\"<\/p>\n

Ejemplo de visi\u00f3n por computadora que clasifica objetos y personas en el piso de una f\u00e1brica.<\/p>\n<\/div>\n

La seguridad \u00abproactiva\u00bb y \u00abpredictiva\u00bb es con lo que IGX pretende ayudar, es decir, detectar problemas de seguridad antes de que causen interrupciones o lesiones. Un bot puede tener su propio mecanismo de parada de emergencia, pero si una c\u00e1mara que monitorea el \u00e1rea pudiera indicarle que se desv\u00ede antes de que una carretilla elevadora se interponga en su camino, todo resultar\u00e1 un poco m\u00e1s fluido. Exactamente qu\u00e9 compa\u00f1\u00eda o software logra esto (y en qu\u00e9 hardware, y c\u00f3mo se paga todo) todav\u00eda es un trabajo en progreso, con empresas como Nvidia y nuevas empresas como Veo Robotics abri\u00e9ndose paso.<\/p>\n

Otro interesante paso adelante se dio en el terreno de juego de Nvidia. Las \u00faltimas y mejores GPU de la compa\u00f1\u00eda est\u00e1n dise\u00f1adas no solo para impulsar tri\u00e1ngulos y sombreadores, sino tambi\u00e9n para realizar r\u00e1pidamente tareas impulsadas por IA como su propia tecnolog\u00eda DLSS para mejorar y agregar marcos.<\/p>\n

El problema que est\u00e1n tratando de resolver es que los motores de juegos son tan exigentes que generar m\u00e1s de 120 fotogramas por segundo (para mantenerse al d\u00eda con los monitores m\u00e1s recientes) mientras se mantiene la fidelidad visual es una tarea herc\u00falea que incluso las GPU potentes apenas pueden hacer. Pero DLSS es una especie de mezclador de cuadros inteligente que puede aumentar la resoluci\u00f3n del cuadro de origen sin alias ni artefactos, por lo que el juego no tiene que empujar tantos p\u00edxeles.<\/p>\n

En DLSS 3, Nvidia afirma que puede generar fotogramas adicionales completos en una proporci\u00f3n de 1:1, por lo que podr\u00eda renderizar 60 fotogramas de forma natural y los otros 60 mediante IA. Puedo pensar en varias razones que podr\u00edan hacer que las cosas sean raras en un entorno de juego de alto rendimiento, pero Nvidia probablemente las conozca. En cualquier caso, deber\u00e1 pagar alrededor de mil por el privilegio de usar el nuevo sistema, ya que solo se ejecutar\u00e1 en tarjetas de la serie RTX 40. Pero si la fidelidad gr\u00e1fica es su principal prioridad, h\u00e1galo.<\/p>\n

\"\"<\/p>\n

Ilustraci\u00f3n de la construcci\u00f3n de drones en un \u00e1rea remota.<\/p>\n<\/div>\n

Lo \u00faltimo hoy es una t\u00e9cnica de impresi\u00f3n 3D basada en drones del Imperial College London que podr\u00eda usarse para procesos de construcci\u00f3n aut\u00f3nomos en un futuro lejano. Por ahora definitivamente no es pr\u00e1ctico para crear algo m\u00e1s grande que un bote de basura, pero a\u00fan es pronto. Eventualmente, esperan hacerlo m\u00e1s como el anterior, y se ve genial, pero mire el video a continuaci\u00f3n para aclarar sus expectativas.<\/p>\n