\nBenj Edwards \/ Ars Technica<\/p>\n<\/figcaption><\/figure>\n\n<\/aside>\n<\/p>\n
El mi\u00e9rcoles, OpenAI lanz\u00f3 un nuevo modelo de IA de c\u00f3digo abierto llamado Whisper que reconoce y traduce audio a un nivel que se acerca a la capacidad de reconocimiento humano. Puede transcribir entrevistas, podcasts, conversaciones y m\u00e1s.<\/p>\n
OpenAI entren\u00f3 a Whisper en 680\u00a0000 horas de datos de audio y transcripciones coincidentes en 98 idiomas recopilados de la web. Seg\u00fan OpenAI, este enfoque de colecci\u00f3n abierta ha llevado a \u00abuna mayor solidez de los acentos, el ruido de fondo y el lenguaje t\u00e9cnico\u00bb. Tambi\u00e9n puede detectar el idioma hablado y traducirlo al ingl\u00e9s.<\/p>\n
OpenAI describe a Whisper como un transformador codificador-decodificador, un tipo de red neuronal que puede usar el contexto extra\u00eddo de los datos de entrada para aprender asociaciones que luego se pueden traducir a la salida del modelo. OpenAI presenta esta descripci\u00f3n general de la operaci\u00f3n de Whisper:<\/p>\n
\nEl audio de entrada se divide en fragmentos de 30 segundos, se convierte en un espectrograma log-Mel y luego se pasa a un codificador. Se entrena un decodificador para predecir el subt\u00edtulo de texto correspondiente, entremezclado con tokens especiales que dirigen al modelo \u00fanico para realizar tareas como identificaci\u00f3n de idioma, marcas de tiempo a nivel de frase, transcripci\u00f3n de voz multiling\u00fce y traducci\u00f3n de voz al ingl\u00e9s.<\/p>\n<\/blockquote>\n
Al abrir Whisper, OpenAI espera introducir un nuevo modelo b\u00e1sico que otros puedan aprovechar en el futuro para mejorar el procesamiento del habla y las herramientas de accesibilidad. OpenAI tiene un historial significativo en este frente. En enero de 2021, OpenAI lanz\u00f3 CLIP, un modelo de visi\u00f3n por computadora de c\u00f3digo abierto que podr\u00eda decirse que inici\u00f3 la era reciente de la tecnolog\u00eda de s\u00edntesis de im\u00e1genes que avanza r\u00e1pidamente, como DALL-E 2 y Stable Diffusion.<\/p>\n\n Anuncio publicitario <\/span> <\/p>\n<\/aside>\nEn Ars Technica, probamos Whisper a partir del c\u00f3digo disponible en GitHub y le dimos m\u00faltiples muestras, incluido un episodio de podcast y una secci\u00f3n de audio particularmente dif\u00edcil de entender tomada de una entrevista telef\u00f3nica. Aunque tom\u00f3 algo de tiempo mientras se ejecutaba a trav\u00e9s de una CPU de escritorio Intel est\u00e1ndar (la tecnolog\u00eda a\u00fan no funciona en tiempo real), Whisper hizo un buen trabajo al transcribir el audio en texto a trav\u00e9s del programa Python de demostraci\u00f3n, mucho mejor que algunos programas basados \u200b\u200ben inteligencia artificial. servicios de transcripci\u00f3n de audio que hemos probado en el pasado.<\/p>\n\nAgrandar
\/<\/span> Ejemplo de salida de consola del programa de demostraci\u00f3n Whisper de OpenAI mientras transcribe un podcast.<\/div>\nBenj Edwards \/ Ars Technica<\/p>\n<\/figcaption><\/figure>\n
Con la configuraci\u00f3n adecuada, Whisper podr\u00eda usarse f\u00e1cilmente para transcribir entrevistas, podcasts y, potencialmente, traducir podcasts producidos en idiomas distintos del ingl\u00e9s al ingl\u00e9s en su m\u00e1quina, de forma gratuita. Esa es una combinaci\u00f3n potente que eventualmente podr\u00eda alterar la industria de la transcripci\u00f3n.<\/p>\n
Al igual que con casi todos los nuevos modelos importantes de IA en estos d\u00edas, Whisper brinda ventajas positivas y el potencial de uso indebido. En la tarjeta modelo de Whisper (en la secci\u00f3n \u00abImplicaciones m\u00e1s amplias\u00bb), OpenAI advierte que Whisper podr\u00eda usarse para automatizar la vigilancia o identificar a hablantes individuales en una conversaci\u00f3n, pero la compa\u00f1\u00eda espera que se use \u00abprincipalmente con fines beneficiosos\u00bb.<\/p>\n<\/p><\/div>\n
\nSource link-49<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"Benj Edwards \/ Ars Technica El mi\u00e9rcoles, OpenAI lanz\u00f3 un nuevo modelo de IA de c\u00f3digo abierto llamado Whisper que reconoce y traduce audio a un nivel que se acerca…<\/p>\n","protected":false},"author":1,"featured_media":186980,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[21980],"tags":[18418,1097,3639,1488,49133,2774,49134],"_links":{"self":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/186979"}],"collection":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/comments?post=186979"}],"version-history":[{"count":1,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/186979\/revisions"}],"predecessor-version":[{"id":186981,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/186979\/revisions\/186981"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/media\/186980"}],"wp:attachment":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/media?parent=186979"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/categories?post=186979"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/tags?post=186979"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}