Se acerca una mejor Siri: lo que dice la investigación de Apple sobre sus planes de IA


Sería fácil pensar que Apple llega tarde al juego de la IA. Desde finales de 2022, cuando ChatGPT arrasó en el mundo, la mayoría de los competidores de Apple se han esforzado por ponerse al día. Si bien Apple ciertamente ha hablado sobre la IA e incluso ha lanzado algunos productos con la IA en mente, parecía estar metiendo un pie en lugar de lanzarse de cabeza.

Pero en los últimos meses, rumores e informes han sugerido que Apple, de hecho, simplemente ha estado esperando el momento oportuno, esperando tomar su decisión. Ha habido informes en las últimas semanas de que Apple está hablando con ambos. OpenAI y Google sobre potenciar algunas de sus funciones de IA, y la compañía también ha estado trabajando en su propio modelo, llamado Ajax.

Si observa la investigación de IA publicada por Apple, comienza a desarrollarse una imagen de cómo el enfoque de Apple hacia la IA podría cobrar vida. Ahora bien, obviamente, hacer suposiciones sobre productos basadas en artículos de investigación es una ciencia profundamente inexacta: la línea que va desde la investigación hasta los estantes de las tiendas es ventosa y está llena de baches. Pero al menos puedes tener una idea de lo que es la empresa. pensamiento sobre y cómo podrían funcionar sus funciones de inteligencia artificial cuando Apple comience a hablar de ellas en su conferencia anual de desarrolladores, WWDC, en junio.

Sospecho que tú y yo esperamos lo mismo aquí: una mejor Siri. ¡Y parece que viene Better Siri! En gran parte de las investigaciones de Apple (y en gran parte de la industria tecnológica, en el mundo y en todas partes) se supone que los grandes modelos de lenguaje harán que los asistentes virtuales sean mejores y más inteligentes de inmediato. Para Apple, llegar a Better Siri significa fabricar esos modelos lo más rápido posible y asegurarse de que estén en todas partes.

En iOS 18, Apple planea tener todas sus funciones de IA ejecutándose en un modelo en el dispositivo, completamente fuera de línea. Bloomberg recientemente reportado. Es difícil construir un buen modelo multipropósito incluso cuando tienes una red de centros de datos y miles de GPU de última generación; es muchísimo más difícil hacerlo con solo las agallas dentro de tu teléfono inteligente. Así que Apple tiene que ser creativa.

En un artículo llamado “LLM en un instante: inferencia eficiente de modelos de lenguaje grande con memoria limitada” (todos estos artículos tienen títulos realmente aburridos pero son realmente interesantes, ¡lo prometo!), los investigadores idearon un sistema para almacenar los datos de un modelo, que generalmente se almacenan en la RAM de su dispositivo, en el SSD. “Hemos demostrado la capacidad de ejecutar LLM de hasta el doble de tamaño de DRAM disponible. [on the SSD]”, escribieron los investigadores, “logrando una aceleración en la velocidad de inferencia de 4 a 5 veces en comparación con los métodos de carga tradicionales en la CPU y de 20 a 25 veces en la GPU”. Descubrieron que al aprovechar el almacenamiento más económico y disponible en su dispositivo, los modelos pueden funcionar más rápido y de manera más eficiente.

Los investigadores de Apple también crearon un sistema llamado ELBERTO eso esencialmente puede comprimir un LLM en un tamaño mucho más pequeño sin empeorarlo significativamente. Su versión comprimida del modelo Bert de Google era 15 veces más pequeña (sólo 1,2 megabytes) y experimentó sólo una reducción del 4 por ciento en la calidad. Sin embargo, vino con algunas compensaciones de latencia.

En general, Apple está presionando para resolver una tensión central en el mundo de los modelos: cuanto más grande se vuelve un modelo, mejor y más útil puede ser, pero también más difícil de manejar, más consumidor de energía y más lento puede volverse. Como tantas otras, la empresa está tratando de encontrar el equilibrio adecuado entre todas esas cosas y al mismo tiempo busca una manera de tenerlo todo.

Mucho de lo que hablamos cuando hablamos de productos de IA es de asistentes virtuales: asistentes que saben cosas, que pueden recordarnos cosas, que pueden responder preguntas y hacer cosas en nuestro nombre. Por lo tanto, no es exactamente sorprendente que gran parte de la investigación de IA de Apple se reduzca a una sola pregunta: ¿y si Siri fuera realmente, realmente, realmente buena?

Un grupo de investigadores de Apple ha estado trabajando en una forma de usar Siri sin necesidad de utilizar ninguna palabra de activación; En lugar de escuchar «Hey Siri» o «Siri», el dispositivo podría simplemente intuir si le estás hablando. «Este problema es significativamente más desafiante que la detección de un disparador de voz», reconocieron los investigadores, «ya que puede que no haya una frase desencadenante inicial que marque el comienzo de un comando de voz». Quizás por eso otro grupo de investigadores desarrolló un sistema para detectar con mayor precisión las palabras de activación. Otro papel entrenó un modelo para comprender mejor palabras raras, que a menudo los asistentes no entienden bien.

En ambos casos, el atractivo de un LLM es que, en teoría, puede procesar mucha más información y mucho más rápido. En el artículo sobre la palabra de activación, por ejemplo, los investigadores encontraron que al no Al tratar de descartar todos los sonidos innecesarios pero, en cambio, alimentándolos todos al modelo y dejándolo procesar lo que importa y lo que no, la palabra de activación funcionó de manera mucho más confiable.

Una vez que Siri te escuche, Apple estará trabajando mucho para asegurarse de que comprenda y se comunique mejor. En un artículo, desarrolló un sistema llamado STEER (que significa Reconocimiento de extensión-expansión de giro semántico, por lo que usaremos STEER) que tiene como objetivo mejorar su comunicación de ida y vuelta con un asistente al tratar de descubrir cuándo está haciendo una pregunta de seguimiento y cuándo. estás pidiendo uno nuevo. En otro, utiliza LLM para comprender mejor las «consultas ambiguas» y descubrir lo que quiere decir sin importar cómo lo diga. «En circunstancias inciertas», escribieron, «los agentes conversacionales inteligentes pueden necesitar tomar la iniciativa para reducir su incertidumbre haciendo buenas preguntas de manera proactiva, resolviendo así los problemas de manera más efectiva». Otro papel también pretende ayudar con eso: los investigadores utilizaron LLM para hacer que los asistentes sean menos detallados y más comprensibles cuando generan respuestas.

a: flotar]:text-gray-63 [&>a:hover]:sombra-subrayado-negro oscuro:[&>a:hover]:texto-gris-bd oscuro:[&>a:hover]:sombra-subrayado-gris [&>a]:sombra-subrayado-gris-63 oscuro:[&>a]:texto-gris-bd oscuro:[&>a]:sombra-subrayado-gris»>Imagen: Apple

Cada vez que Apple habla públicamente sobre la IA, tiende a centrarse menos en el poder tecnológico en bruto y más en las cosas del día a día que la IA realmente puede hacer por usted. Entonces, si bien hay mucha atención en Siri, especialmente porque Apple busca competir con dispositivos como Humane AI Pin, Rabbit R1 y la continua destrucción de Gemini por parte de Google en todo Android, hay muchas otras formas en que Apple parece ver La IA es útil.