Lo que necesitas saber
- OpenAI acaba de lanzar su nuevo modelo insignia GPT-4o.
- Puede razonar a través de audio, visión y texto en tiempo real, lo que hace que las interacciones con ChatGPT sean más fluidas.
- OpenAI también presentó una aplicación ChatGPT nativa para Mac, despreciando a Windows.
- Una demostración viral de ChatGPT mostró las capacidades visuales y de audio de GPT-4o para hablar con otro modelo de IA.
OpenAI solo presentó su nuevo modelo insignia GPT-4o (Sé que no soy el único que se confunde con estos modelos mientras continúan enviándose). Básicamente, GPT-4o es una versión mejorada de GPT-4 de OpenAI y es igual de inteligente. El modelo es más intuitivo y puede razonar a través de audio, visión y texto en tiempo real, lo que hace que las interacciones con ChatGPT sean más fluidas.
La «magia» detrás del evento de actualización de primavera recién concluido de OpenAI sigue siendo discutible, pero las demostraciones que surgen en las redes sociales son bastante impresionantes, casi alucinantes. Traducir el idioma italiano al inglés y transmitir la información en tiempo real es algo extraordinario, que potencialmente mantiene a raya los impedimentos a la comunicación, como las barreras del idioma.
Pero lo que me dejó perplejo fue una demostración en vídeo compartida por El presidente y cofundador de OpenAI, Greg Brockman, sobre X (anteriormente Twitter). Nunca pensé que algún día llegaríamos a un punto en el que un asistente virtual pudiera mantener una conversación completa con otro asistente de IA con complicaciones mínimas.
Presentamos GPT-4o, nuestro nuevo modelo que puede razonar a través de texto, audio y video en tiempo real. Es extremadamente versátil, divertido de jugar y es un paso hacia una forma mucho más natural de interacción humano-computadora (e incluso humana). -interacción computadora-computadora): pic.twitter.com/VLG7TJ1JQx13 de mayo de 2024
La demostración comienza cuando el usuario explica a dos chatbots de IA que básicamente estarán hablando entre sí. El usuario explica a los chatbots sus expectativas y afirma que uno de los chatbots puede ver el mundo a través de una cámara. Por el contrario, el otro chatbot puede modelar preguntas o incluso dirigirlo para que realice tareas específicas con la ayuda del usuario.
«Bueno, bueno, bueno, justo cuando pensaba que las cosas no podían ponerse más interesantes», respondió en broma el primer chatbot. Hablar con otra IA que puede ver el mundo, esto suena como un giro de la trama en el universo de la IA». Justo antes de que el asistente de IA pudiera aceptar los términos, el usuario le pidió que hiciera una pausa mientras le daba instrucciones a la segunda IA. .
De buenas a primeras, el usuario comienza a hablar con el segundo asistente de IA diciéndole que tendrá acceso para ver el mundo. Supongo que se trata de un mensaje sutil que le pide al asistente que acceda a la cámara del teléfono, que utilizará como sus ojos para ver el mundo. Al instante, la interfaz presenta una cámara (modo selfie) y muestra una imagen nítida de lo que lleva puesto el usuario y su entorno.
A partir de este punto, el usuario señala que el primer modelo de IA le hablará y le hará preguntas, incluido el movimiento de la cámara y lo que ve. Se espera que sea útil y que las preguntas se respondan con precisión.
El proceso comienza con la IA que puede «ver el mundo», explicando lo que ve, incluido el usuario y más contexto sobre su código de vestimenta y el diseño del edificio. Curiosamente, casi se siente como si dos humanos conversaran por FaceTime, ya que la primera IA brinda retroalimentación basada en la información compartida. Además, la IA parece tener una idea clara de lo que hace el usuario, su expresión e incluso su estilo en función de lo que lleva puesto.
Lo que me sorprendió fue cuando el usuario le indicó a otra persona en la habitación que se acercara y apareciera en la vista de la IA. La IA se dio cuenta instantáneamente de esto e incluso indicó que el usuario «podría estar preparándose para una presentación o conversación» en función de su interacción directa con la cámara.
Curiosamente, la introducción de un tercero no afectó la conversación entre ambas IA. A primera vista, es casi posible decir que la IA no vislumbró a la persona que entraba a la habitación y se paraba detrás del usuario que sostenía el teléfono.
Sin embargo, este no es el caso. El usuario detuvo brevemente la conversación entre ambas IA para preguntar si había ocurrido algo inusual. La IA con capacidades visuales señaló que una segunda persona apareció detrás de la primera y juguetonamente hizo ojos de conejo detrás de la primera persona antes de abandonar rápidamente el cuadro. La AI se refirió a la situación como alegre e inesperado.
La demostración continúa mostrando las amplias capacidades del GPT-4o. El usuario incluso solicita que ambos modelos creen una canción basada en los hechos que acaban de ocurrir y la canten alternando líneas. En algún momento, parece como si un maestro de coro estuviera preparando a su coro para un próximo evento importante en la iglesia.
También debo señalar que la mayoría de las demostraciones que he visto se realizan principalmente en dispositivos Apple como el iPhone y la MacBook. Quizás sea por eso OpenAI lanzó una aplicación ChatGPT nativa para usuarios de Mac antes de enviarlo a Windows. Además, el director ejecutivo de OpenAI, Sam Altman, admitió que «El iPhone es la mayor pieza tecnológica que jamás haya creado la humanidad.«.