El nuevo asistente de IA puede navegar, buscar y usar aplicaciones web como un humano


Agrandar / Fotograma de un video de demostración que muestra a ACT-1 realizando una búsqueda en Redfin.com en un navegador cuando se le pide que «encuentre una casa».

Adepto

Ayer, la firma de IA con sede en California, Adept, anunció Action Transformer (ACT-1), un modelo de IA que puede realizar acciones en software como un asistente humano cuando se le dan comandos escritos o verbales de alto nivel. Según se informa, puede operar aplicaciones web y realizar búsquedas inteligentes en sitios web mientras hace clic, se desplaza y escribe en los campos correctos como si fuera una persona que usa la computadora.

En un video de demostración tuiteó por Adept, la compañía muestra a alguien escribiendo, «Encuéntrame una casa en Houston que funcione para una familia de 4. Mi presupuesto es de 600K» en un cuadro de entrada de texto. Al enviar la tarea, ACT-1 explora automáticamente Redfin.com en un navegador web, hace clic en las regiones adecuadas del sitio web, escribe una entrada de búsqueda y cambia los parámetros de búsqueda hasta que aparece una casa coincidente en la pantalla.

Otro video de demostración en el sitio web de Adept muestra a ACT-1 operando Salesforce con indicaciones como «agregue a Max Nye en Adept como nuevo líder» y «registre una llamada con James Veel diciendo que está pensando en comprar 100 widgets». ACT-1 luego hace clic en los botones correctos, se desplaza y completa los formularios adecuados para finalizar estas tareas. Otros videos de demostración muestran al ACT-1 navegando por Google Sheets, Craigslist y Wikipedia a través de un navegador.

Un video promocional de Adept que muestra a ACT-1 operando Google Sheets, una aplicación de hoja de cálculo basada en la web.

¿Cómo es esto posible? Adept describe el ACT-1 como un «transformador a gran escala». En IA, un modelo de transformador es un tipo de red neuronal que aprende a hacer algo al entrenarse con datos de ejemplo, y genera conocimiento del contexto y las relaciones entre los elementos del conjunto de datos. Los transformadores han estado detrás de muchas innovaciones recientes de IA, incluidos modelos de lenguaje como GPT-3 que pueden escribir a un nivel casi humano.

En el caso de ACT-1, los datos de entrenamiento aparentemente provinieron primero de humanos que operaron el software, y el modelo de IA aprendió de eso. Alguien que se identificó como desarrollador de ACT-1 en Hacker News escribió: «¡Usamos una combinación de demostraciones humanas y datos de retroalimentación! Necesita un software personalizado tanto para registrar las demostraciones como para representar el estado de la herramienta en forma de modelo consumible.«

Después del entrenamiento, el modelo ACT-1 interactúa con un navegador web a través de una extensión de Chrome que puede «observar lo que sucede en el navegador y realizar ciertas acciones, como hacer clic, escribir y desplazarse», según Adept. La empresa describe la capacidad de observación de ACT -1 como la capacidad de generalizar entre sitios web, por lo que las reglas aprendidas en un sitio pueden aplicarse a otros.

Si bien ya existen scripts para automatizar la navegación (y a menudo se usan para impulsar bots con malas intenciones), la naturaleza poderosa y generalizada de ACT-1 implícita en las demostraciones parece llevar la automatización de máquinas a un nuevo nivel. Ya, la gente en Twitter habla en serio y medio en broma. dando alarmas sobre el potencial de mal uso que esta tecnología podría traer. ¿Deberíamos permitir que un sistema inteligente tenga tanto control sobre las interfaces de nuestra computadora?

Si bien esas preocupaciones son puramente hipotéticas por ahora, especialmente porque ACT-1 no funciona de manera autónoma, son algo a tener en cuenta a medida que nos precipitamos hacia una IA generalizada a nivel humano que puede interactuar con el mundo exterior a través de Internet. Adept incluso hace referencia a este objetivo en su sitio web y escribe: «Creemos que el marco más claro de la inteligencia general es un sistema que puede hacer cualquier cosa que un humano pueda hacer frente a una computadora».





Source link-49