La importante actualización ChatGPT-4o permite conversaciones de audio y video con un chatbot de IA «emocional»


El lunes, OpenAI presentó GPT-4o (o de «omni»), un nuevo e importante modelo de IA que aparentemente puede conversar usando el habla en tiempo real, leyendo señales emocionales y respondiendo a información visual. Opera más rápido que el mejor modelo anterior de OpenAI, GPT-4 Turbo, y será gratuito para los usuarios de ChatGPT y estará disponible como servicio a través de API, y se implementará en las próximas semanas, dice OpenAI.

OpenAI reveló las nuevas capacidades de conversación de audio y comprensión de visión en una transmisión en vivo de YouTube titulada «OpenAI Spring Update», presentada por la CTO de OpenAI Mira Murati y los empleados Mark Chen y Barret Zoph que incluyeron demostraciones en vivo de GPT-4o en acción.

OpenAI afirma que GPT-4o responde a las entradas de audio en aproximadamente 320 milisegundos en promedio, lo cual es similar a los tiempos de respuesta humana en una conversación, según un estudio de 2009, y mucho más corto que el típico retraso de 2 a 3 segundos experimentado con modelos anteriores. Con GPT-4o, OpenAI dice que entrenó un nuevo modelo de IA de extremo a extremo utilizando texto, visión y audio de manera que todas las entradas y salidas «son procesadas por la misma red neuronal».

Actualización de primavera de OpenAI.

«Debido a que GPT-4o es nuestro primer modelo que combina todas estas modalidades, todavía estamos apenas rascando la superficie de la exploración de lo que el modelo puede hacer y sus limitaciones», dice OpenAI.

Durante la transmisión en vivo, OpenAI demostró las capacidades de conversación de audio en tiempo real de GPT-4o, mostrando su capacidad para entablar un diálogo natural y receptivo. El asistente de IA pareció captar fácilmente las emociones, adaptó su tono y estilo para satisfacer las solicitudes del usuario e incluso incorporó efectos de sonido, risas y cantos en sus respuestas.

La CTO de OpenAI, Mira Murati, fue vista debutando con GPT-4o durante la transmisión en vivo de la actualización de primavera de OpenAI el 13 de mayo de 2024.
Agrandar / La CTO de OpenAI, Mira Murati, fue vista debutando con GPT-4o durante la transmisión en vivo de la actualización de primavera de OpenAI el 13 de mayo de 2024.

Abierto AI

Los presentadores también destacaron la comprensión visual mejorada de GPT-4o. Al cargar capturas de pantalla, documentos que contienen texto e imágenes o gráficos, los usuarios aparentemente pueden mantener conversaciones sobre el contenido visual y recibir análisis de datos de GPT-4o. En la demostración en vivo, el asistente de IA demostró su capacidad para analizar selfies, detectar emociones y bromear alegremente sobre las imágenes.

Además, GPT-4o mostró una velocidad y calidad mejoradas en más de 50 idiomas, que según OpenAI cubren el 97 por ciento de la población mundial. El modelo también mostró sus capacidades de traducción en tiempo real, facilitando conversaciones entre hablantes de diferentes idiomas con traducciones casi instantáneas.

OpenAI agregó por primera vez funciones de voz conversacional a ChatGPT en septiembre de 2023 que utilizaba Whisper, un modelo de reconocimiento de voz de IA, para la entrada y una tecnología de síntesis de voz personalizada para la salida. En el pasado, la interfaz ChatGPT multimodal de OpenAI utilizaba tres procesos: transcripción (de voz a texto), inteligencia (procesamiento del texto como tokens) y texto a voz, lo que aumentaba la latencia con cada paso. Con GPT-4o, todos esos pasos supuestamente ocurren a la vez. Según Murati, «razona a través de la voz, el texto y la visión». Lo llamaron «omnimodelo» en una diapositiva que se muestra en la pantalla detrás de Murati durante la transmisión en vivo.

OpenAI anunció que GPT-4o será accesible para todos los usuarios de ChatGPT, y los suscriptores pagos tendrán acceso a cinco veces los límites de tarifas de los usuarios gratuitos. Según se informa, GPT-4o en forma API también contará con el doble de velocidad, un costo 50 por ciento menor y límites de velocidad cinco veces más altos en comparación con GPT-4 Turbo.

En <em>Her</em>, el personaje principal habla con una personalidad de IA a través de auriculares inalámbricos similares a los AirPods.» src=»https://cdn.arstechnica.net/wp-content/uploads/2023/10/her_2-640×344.jpg» width=»640″ height=»344″ srcset=»https://cdn.arstechnica.net/wp-content/uploads/2023/10/her_2-1280×689.jpg 2x»/><figcaption class=
Agrandar / En Suel personaje principal habla con una personalidad de IA a través de auriculares inalámbricos similares a los AirPods.

Warner Bros.

Las capacidades demostradas durante la transmisión en vivo y numerosos videos en el sitio web de OpenAI recuerdan al agente de IA conversacional en la película de ciencia ficción de 2013. Su. En esa película, el personaje principal desarrolla un vínculo personal con la personalidad de la IA. Con la expresividad emocional simulada de GPT-4o de OpenAI (inteligencia emocional artificial, se podría llamar así), no es inconcebible que se puedan desarrollar vínculos emocionales similares en el lado humano con el asistente de OpenAI, como ya hemos visto en el pasado.

Murati reconoció los nuevos desafíos que plantean las capacidades de audio e imagen en tiempo real de GPT-4o en términos de seguridad y afirmó que la compañía continuará investigando la seguridad y solicitando comentarios de los usuarios de prueba durante su implementación iterativa en las próximas semanas.

«GPT-4o también se ha sometido a un extenso equipo rojo externo con más de 70 expertos externos en dominios como psicología social, prejuicios y equidad, e información errónea para identificar los riesgos que introducen o amplifican las modalidades recién agregadas», dice OpenAI. «Usamos estos aprendizajes [sic] desarrollar nuestras intervenciones de seguridad para mejorar la seguridad de la interacción con GPT-4o. Continuaremos mitigando nuevos riesgos a medida que se descubran».

Actualizaciones de ChatGPT

También el lunes, OpenAI anunció varias actualizaciones de ChatGPT, incluida una aplicación de escritorio ChatGPT para macOS, que estará disponible para los usuarios de ChatGPT Plus hoy y estará «más ampliamente disponible» en las próximas semanas, según OpenAI. OpenAI también está optimizando la interfaz ChatGPT con una nueva pantalla de inicio y diseño de mensajes.

Y como mencionamos brevemente anteriormente, al usar el modelo GPT-4o (una vez que esté ampliamente disponible), los usuarios de ChatGPT Free tendrán acceso a navegación web, análisis de datos, GPT Store y funciones de memoria, que anteriormente estaban limitadas a ChatGPT Plus. , Team y Enterprise.



Source link-49