ChatGPT ahora admite chats de voz y consultas basadas en imágenes


está recibiendo algunas actualizaciones importantes que permitirán al chatbot manejar comandos de voz y consultas basadas en imágenes. Los usuarios podrán tener una conversación de voz con ChatGPT en Android e iOS y enviarle imágenes en todas las plataformas. está implementando las funciones ahora. Estarán disponibles para los usuarios Plus y Enterprise al principio, y otras personas obtendrán acceso a las funciones basadas en imágenes más adelante.

Deberá optar por las conversaciones de voz en la aplicación ChatGPT (vaya a Configuración y luego a Nuevas funciones) si desea probarlas. Al tocar el botón del micrófono, podrás elegir entre cinco voces diferentes.

OpenAI dice que las conversaciones de voz de ida y vuelta están impulsadas por un nuevo modelo de texto a voz que puede generar «audio similar al humano a partir de solo texto y unos segundos de muestra de voz». Creó las cinco voces con la ayuda de actores profesionales. En sentido contrario, la empresa convierte las palabras habladas de un usuario en texto.

Para ver este contenido, deberá actualizar su configuración de privacidad. Por favor haga clic aquí y ver el «Contenido y socios de redes sociales» configuración para hacerlo.

Las funciones basadas en imágenes también son intrigantes. OpenAI dice que puedes, por ejemplo, mostrarle al chatbot una foto de tu parrilla y preguntarle por qué no arranca, hacer que te ayude a planificar una comida basándose en una instantánea de lo que hay en tu refrigerador o pedirle que resuelva un problema matemático que Toma una foto de. Da la casualidad de que Microsoft destacó la IA Copilot en Windows durante su evento Surface la semana pasada.

OpenAI utiliza GPT-3.5 y GPT-4 para potenciar las funciones de reconocimiento de imágenes. Para usar las funciones basadas en imágenes de ChatGPT, toque el botón de foto (primero deberá tocar el botón más en iOS o Android) para tomar una foto o elegir una imagen existente en su dispositivo. Puedes preguntarle a ChatGPT sobre varias fotos y usar una herramienta de dibujo para enfocarte en una parte específica de la imagen.

Al anunciar las actualizaciones, OpenAI notó el potencial de daño. Es posible que los malos actores imiten las voces de figuras públicas (y de la gente común) y tal vez cometan fraude. Es por eso que OpenAI se centra en las conversaciones de voz ChatGPT con esta tecnología y trabaja con socios selectos en otros casos de uso limitado (más sobre esto en un momento).

En cuanto a las imágenes, OpenAI trabajó con , una aplicación gratuita que las personas ciegas y con baja visión pueden utilizar para ayudarles a comprender mejor su entorno gracias a los voluntarios que participan en videollamadas con ellos. «Los usuarios nos han dicho que les resulta valioso tener conversaciones generales sobre imágenes que contienen personas en segundo plano, como si alguien aparece en la televisión mientras intentas descubrir la configuración del control remoto», dijo OpenAI. La compañía señaló que también ha limitado la forma en que ChatGPT puede analizar y hacer declaraciones directas sobre las personas que aparecen en las imágenes, «ya que ChatGPT no siempre es preciso y estos sistemas deben respetar la privacidad de las personas». Tiene las propiedades de seguridad de la funcionalidad basada en imágenes, a la que llama GPT-4 con visión.

ChatGPT es más eficaz para comprender texto en inglés en imágenes que otros idiomas. OpenAI dice que el chatbot «funciona mal» en otros idiomas por el momento, particularmente cuando se trata de aquellos que usan escrituras no romanas. Como tal, sugiere que los usuarios que no hablan inglés eviten usar ChatGPT para manejar texto en imágenes por ahora.

Mientras tanto, Spotify se ha asociado con OpenAI para utilizar la tecnología basada en voz con un propósito interesante. El primero ha anunciado un piloto de una herramienta llamada Voice Translation para podcasters. Esto puede traducir podcasts a diferentes idiomas utilizando las voces de las personas que aparecen en el programa. Spotify dice que la herramienta puede conservar las características del habla del hablante original después de convertir su voz a otros idiomas.

Para empezar, Spotify está convirtiendo programas seleccionados en inglés a algunos idiomas. versiones en español de algunas Experto en sillones y El diario de un director ejecutivo con Steven Bartlett episodios, con variantes francesa y alemana a continuación.

Para ver este contenido, deberá actualizar su configuración de privacidad. Por favor haga clic aquí y ver el «Contenido y socios de redes sociales» configuración para hacerlo.



Source link-47