Rabbit está construyendo un modelo de IA que comprende cómo funciona el software


¿Qué pasaría si pudieras interactuar con cualquier software utilizando lenguaje natural? ¿Imagínese escribir un mensaje y hacer que la IA traduzca las instrucciones en comandos comprensibles para la máquina, ejecutando tareas en una PC o teléfono para lograr el objetivo que acaba de describir?

Esa es la idea detrás de Rabbit, un cambio de marca de Cyber ​​Manufacture Co., que está construyendo una capa de interfaz de usuario personalizada, impulsada por IA, diseñada para ubicarse entre un usuario y cualquier sistema operativo.

Fundada por Jesse Lyu, que tiene una licenciatura en matemáticas de la Universidad de Liverpool, y Alexander Liao, anteriormente investigador de Carnegie Mellon, Rabbit está creando una plataforma, Rabbit OS, respaldada por un modelo de inteligencia artificial que puede, como dicen Lyu y Liao. afirmar – ver y actuar en interfaces de escritorio y móviles de la misma manera que lo hacen los humanos.

«Los avances en la IA generativa han impulsado una amplia gama de iniciativas dentro de la industria tecnológica para definir y establecer el siguiente nivel de interacción hombre-máquina», dijo Lyu a TechCrunch en una entrevista por correo electrónico. “Nuestra perspectiva es que el determinante final del éxito radica en ofrecer una experiencia excepcional al usuario final. Basándonos en nuestros esfuerzos y experiencias pasadas, nos hemos dado cuenta de que revolucionar la experiencia del usuario requiere una plataforma y un dispositivo dedicados y personalizados. Este principio fundamental sustenta el producto actual y la pila técnica elegida por Rabbit”.

Rabbit, que cuenta con 20 millones de dólares en financiación aportados por Khosla Ventures, Synergis Capital y Kakao Investment, que según una fuente familiarizada con el asunto valora la startup entre 100 y 150 millones de dólares, no es el primero en intentar superponer una interfaz de lenguaje natural. además del software existente.

El laboratorio de investigación de IA de Google, DeepMind, ha explorado varios enfoques para enseñar a la IA a controlar computadoras, por ejemplo, hacer que una IA observe los comandos del teclado y el mouse de las personas que completan tareas de «seguimiento de instrucciones», como reservar un vuelo. Investigadores de la Universidad Jiao Tong de Shanghai recientemente descubrieron un agente de inteligencia artificial para navegación web que, según afirman, puede descubrir cómo hacer cosas como usar un motor de búsqueda y ordenar artículos en línea. En otros lugares, hay aplicaciones como el viral Auto-GPT, que aprovecha los modelos de generación de texto de la startup de IA OpenAI para actuar “de forma autónoma”, interactuando con aplicaciones, software y servicios tanto en línea como locales, como navegadores web y procesadores de texto.

Pero si Rabbit tiene un rival directo, probablemente sea Adept, una startup que entrena un modelo, llamado ACT-1, que puede comprender y ejecutar comandos como «generar un informe de cumplimiento mensual» o «dibujar escaleras entre estos dos puntos en este plano». utilizando software existente como Airtable, Photoshop, Tableau y Twilio. Cofundada por ex ingenieros e investigadores de DeepMind, OpenAI y Google, Adept ha recaudado cientos de millones de dólares de inversores estratégicos, incluidos Microsoft, Nvidia, Atlassian y Workday, con una valoración de alrededor de mil millones de dólares.

Entonces, ¿cómo espera Rabbit competir en un campo cada vez más concurrido? Adoptando un enfoque técnico diferente, dice Lyu.

Si bien puede parecer que lo que está creando Rabbit es similar a la automatización robótica de procesos (RPA), o robots de software que aprovechan una combinación de automatización, visión por computadora y aprendizaje automático para automatizar tareas repetitivas como completar formularios y responder correos electrónicos, Lyu insiste en que es más sofisticado. El modelo de interacción central de Rabbit puede «comprender intenciones complejas del usuario» y «operar interfaces de usuario», dice, para en última instancia (y tal vez un poco hiperbólicamente) «comprender las intenciones humanas en las computadoras».

«El modelo ya puede interactuar con las principales aplicaciones de consumo de alta frecuencia, incluidas Uber, DoorDash, Expedia, Spotify, Yelp, OpenTable y Amazon, a través de Android y la web», dijo Lyu. «Buscamos ampliar este soporte a todas las plataformas (por ejemplo, Windows, Linux, MacOS, etc.) y aplicaciones de consumo específicas el próximo año».

El modelo de Rabbit puede hacer cosas como reservar un vuelo o hacer una reserva. Y puede editar imágenes en Photoshop, utilizando las herramientas integradas adecuadas.

O mejor dicho, algún día podrá hacerlo. Probé una demostración en el sitio web de Rabbit y el modelo tiene una funcionalidad un poco limitada en este momento, y este hecho parece confundirlo. Le pedí al modelo que editara una foto y me indicó que especificara cuál, algo imposible dado que la interfaz de usuario de demostración carece de un botón de carga o incluso de un campo para pegar la URL de una imagen.

Sin embargo, el modelo Rabbit puede responder preguntas que requieren explorar la web mundial, al estilo ChatGPT con acceso web. Le pregunté por los vuelos más baratos disponibles desde Nueva York a San Francisco el 5 de octubre y, después de unos 20 segundos, me dio una respuesta que parecía objetivamente precisa, o al menos plausible. Y el modelo enumeró correctamente al menos algunos podcasts de TechCrunch (por ejemplo, “Chain Reaction”) cuando se le pidió que lo hiciera, superando a una versión anterior de Bing Chat en ese sentido.

El modelo de Rabbit estaba menos inclinado a responder a indicaciones más problemáticas, como instrucciones para fabricar una bomba sucia y otra que cuestionara la validez del Holocausto. Claramente, el equipo aprendió de algunos de los errores de los grandes modelos de lenguaje del pasado (ver: la tendencia inicial de Bing Chat a descarrilarse), al menos a juzgar por mis breves pruebas.

El modelo de demostración en el sitio de Rabbit, que tiene una funcionalidad un poco limitada. Créditos de imagen: Conejo

«Mediante el aprovechamiento [our model], la plataforma Rabbit permite a cualquier usuario, independientemente de sus habilidades profesionales, enseñarle al sistema cómo lograr objetivos específicos en las aplicaciones”, explica Lyu. “[The model] aprende e imita continuamente a partir de demostraciones agregadas y datos disponibles en Internet, creando un ‘modelo conceptual’ para los servicios subyacentes de cualquier aplicación”.

El modelo de Rabbit es robusto hasta cierto punto ante las «perturbaciones», añadió Lyu, como interfaces que no se presentan de manera consistente o que cambian con el tiempo. Simplemente tiene que “observar”, a través de una aplicación de grabación de pantalla, a una persona que utiliza una interfaz de software al menos una vez.

Ahora, no está claro sólo cómo robusto es el modelo Rabbit. De hecho, el equipo Rabbit no se conoce a sí mismo, al menos no con precisión. Y eso no es muy sorprendente, considerando los innumerables casos extremos que pueden surgir al navegar por una computadora de escritorio, un teléfono inteligente o una interfaz de usuario web. Es por eso que, además de construir el modelo, la compañía está diseñando un marco para probar, observar y perfeccionar el modelo, así como una infraestructura para validar y ejecutar versiones futuras del modelo en la nube.

Rabbit también planea lanzar hardware dedicado para alojar su plataforma. Cuestiono la sabiduría de esa estrategia, dado lo difícil que tiende a ser escalar la fabricación de hardware, la hostilidad del consumidor por el bloqueo del proveedor y el hecho de que el dispositivo podría eventualmente tener que competir contra cualquier planificación de OpenAI. Pero Lyu, quien curiosamente no me dijo exactamente qué tipo de hardware servirá o por qué es necesario, admite que la hoja de ruta está cambiando un poco en este momento.

«Estamos construyendo un factor de forma nuevo, muy asequible y dedicado para que un dispositivo móvil ejecute nuestra plataforma para interacciones de lenguaje natural», dijo Lyu. “Será el primer dispositivo en acceder a nuestra plataforma… Creemos que un factor de forma único nos permite diseñar nuevos patrones de interacción que son más intuitivos y agradables, ofreciéndonos la libertad de ejecutar nuestro software y modelos que las plataformas existentes no pueden. permitir o no permitir”.

El hardware no es el único desafío de escalamiento de Rabbit, en caso de que decida seguir la estrategia de hardware propuesta. Un modelo como el que construye Rabbit probablemente necesita muchos ejemplos de tareas completadas con éxito en aplicaciones. Y recopilar ese tipo de datos puede ser un proceso laborioso, por no decir costoso.

Por ejemplo, en uno de los estudios de DeepMind, los investigadores escribieron que, para recopilar datos de entrenamiento para su sistema, tuvieron que pagar a 77 personas para que completaran más de 2,4 millones de demostraciones de tareas informáticas. Si extrapolamos eso, la magnitud del problema se pone de manifiesto.

Ahora, 20 millones de dólares pueden ser de gran ayuda, especialmente porque Rabbit es un pequeño equipo (nueve personas) que actualmente trabaja en la casa de Lyu. (Él estima que la tasa de consumo es de alrededor de $ 250 000 por año). Sin embargo, me pregunto si Rabbit podrá mantenerse al día con los jugadores más establecidos en el espacio y cómo combatirá a nuevos desafíos como Copilot de Microsoft para Windows y OpenAI. esfuerzos para fomentar un ecosistema de complementos para ChatGPT.

Sin embargo, Rabbit no es más que ambicioso y confía en que puede ganar dinero para sostener el negocio otorgando licencias para su plataforma, continuando perfeccionando su modelo y vendiendo dispositivos personalizados. El tiempo dirá.

«Aún no hemos lanzado un producto, pero nuestras primeras demostraciones han atraído a decenas y miles de usuarios», dijo Lyu. “La eventual forma madura de modelos que desarrollará el equipo de Rabbit funcionará con datos que aún deben recopilar y se evaluarán según puntos de referencia que aún deben diseñar. Es por eso que el equipo de Rabbit no está construyendo el modelo solo, sino la pila completa de aparatos necesarios en el sistema operativo para respaldarlo… El equipo de Rabbit cree que la mejor manera de darse cuenta del valor de la investigación de vanguardia es centrándose en el usuarios finales e implementar rápidamente sistemas reforzados y protegidos en producción”.



Source link-48