OpenAI podría presentar pronto un asistente digital de IA multimodal


OpenAI ha estado mostrando a algunos de sus clientes un nuevo modelo de IA multimodal que puede hablar con usted y reconocer objetos, según un nuevo informe de La información. Citando fuentes anónimas que lo vieron, el medio dice que esto podría ser parte de lo que la compañía planea mostrar el lunes.

Según se informa, el nuevo modelo ofrece una interpretación más rápida y precisa de imágenes y audio que lo que pueden hacer sus modelos de transcripción independiente y de texto a voz existentes.. Aparentemente podría ayudar a los agentes de servicio al cliente a «comprender mejor la entonación de las voces de las personas que llaman o si están siendo sarcásticas» y «teóricamente», el modelo puede ayudar a los estudiantes con matemáticas o traducir señas del mundo real, escribe. La información.

Las fuentes del medio dicen que el modelo puede superar al GPT-4 Turbo en «responder algunos tipos de preguntas», pero aún es susceptible de equivocarse con seguridad.

Es posible que OpenAI también esté preparando una nueva capacidad ChatGPT incorporada para realizar llamadas telefónicas, según el desarrollador Ananay Arora, quien publicó la captura de pantalla anterior del código relacionado con las llamadas. Arora también evidencia manchada que OpenAI había proporcionado servidores destinados a la comunicación de audio y vídeo en tiempo real.

Nada de esto sería GPT-5, si se presenta la próxima semana. El director ejecutivo Sam Altman tiene negado explícitamente que su próximo anuncio tiene algo que ver con el modelo que se supone que es «materialmente mejor”que GPT-4. La información escribe GPT-5 puede publicarse antes de fin de año.



Source link-37