Ahora puedes solicitar ChatGPT con imágenes y comandos de voz


La mayoría de los cambios de OpenAI en ChatGPT involucran lo que el robot impulsado por IA puede hacer hacer: preguntas que puede responder, información puede acceder y modelos subyacentes mejorados. Esta vez, sin embargo, se trata de modificar la forma en que usa ChatGPT. La compañía está lanzando una nueva versión del servicio que le permite avisar al robot de IA no solo escribiendo oraciones en un cuadro de texto, sino hablando en voz alta o simplemente cargando una imagen. Las nuevas funciones se están implementando para aquellos que pagar por ChatGPT en las próximas dos semanas, y todos los demás lo obtendrán “poco después”, según OpenAI.

La parte del chat de voz es bastante familiar: tocas un botón y dices tu pregunta, ChatGPT la convierte en texto y la envía al modelo de lenguaje grande, obtiene una respuesta, la convierte nuevamente en voz y pronuncia la respuesta en voz alta. Debería sentirse como hablar con Alexa o el Asistente de Google, solo que, espera OpenAI, las respuestas serán mejores gracias a la tecnología subyacente mejorada. Parece que la mayoría de los asistentes virtuales están siendo reconstruido para depender de LLM – OpenAI está justo por delante del juego.

OpenAI excelente modelo susurro hace gran parte del trabajo de conversión de voz a texto, y la compañía está lanzando un nuevo modelo de conversión de texto a voz que, según dice, puede generar «audio similar al humano a partir de solo texto y unos segundos de muestra de voz». Podrás elegir la voz de ChatGPT entre cinco opciones, pero OpenAI parece pensar que el modelo tiene mucho más potencial que eso. OpenAI está trabajando con Spotify para traducir podcasts a otros idiomas, por ejemplo, manteniendo el sonido de la voz del podcaster. Hay un montón de usos interesantes para voces sintéticasy OpenAI podría ser una gran parte de esa industria.

Pero el hecho de que puedas crear una voz sintética capaz con sólo unos segundos de audio también abre la puerta a todo tipo de casos de uso problemáticos. «Estas capacidades también presentan nuevos riesgos, como la posibilidad de que actores maliciosos se hagan pasar por figuras públicas o cometan fraude», dice la compañía en una publicación de blog que anuncia las nuevas funciones. El modelo no está disponible para un uso amplio precisamente por esa razón, dice OpenAI: estará mucho más controlado y restringido a casos de uso y asociaciones específicos.

La búsqueda de imágenes, por su parte, es un poco como lente de google. Tomas una foto de lo que sea que te interese y ChatGPT intentará descubrir qué estás preguntando y responder en consecuencia. También puede utilizar la herramienta de dibujo de la aplicación para aclarar su consulta, o hablar o escribir preguntas que vayan acompañadas de la imagen. Aquí es donde la naturaleza de ida y vuelta de ChatGPT es útil: en lugar de hacer una búsqueda, obtener la respuesta incorrecta y luego hacer otra búsqueda, puedes avisar al bot y refinar la respuesta a medida que avanzas. (Esto se parece mucho a lo que es Google haciendo con la búsqueda multimodaltambién.)

Obviamente, la búsqueda de imágenes también tiene sus posibles problemas. Uno es lo que podría suceder cuando le preguntas a un chatbot sobre una persona: OpenAI dice que ha limitado deliberadamente la “capacidad de ChatGPT para analizar y hacer declaraciones directas sobre las personas” tanto para razones de precisión y privacidad. Eso significa una de las visiones más de ciencia ficción de la IA: la capacidad de mirar a alguien y decir: «¿Quién es?». – no llegará pronto. Lo cual es probablemente algo bueno.

Casi un año después del lanzamiento inicial de ChatGPT, OpenAI parece estar todavía tratando de descubrir cómo darle a su bot más características y capacidades sin crear nuevos problemas y desventajas. Con estos lanzamientos, la compañía intentó seguir esa línea limitando deliberadamente lo que podían hacer sus nuevos modelos. Pero ese enfoque no funcionará para siempre. A medida que más personas utilicen el control por voz y la búsqueda de imágenes, y que ChatGPT se acerque cada vez más a ser un asistente virtual útil y verdaderamente multimodal, será cada vez más difícil mantener las barreras.



Source link-37