{"id":189455,"date":"2022-09-24T03:46:41","date_gmt":"2022-09-24T03:46:41","guid":{"rendered":"https:\/\/magazineoffice.com\/use-la-nueva-tecnologia-de-openai-para-transcribir-audio-directamente-en-mi-computadora-portatil\/"},"modified":"2022-09-24T03:46:43","modified_gmt":"2022-09-24T03:46:43","slug":"use-la-nueva-tecnologia-de-openai-para-transcribir-audio-directamente-en-mi-computadora-portatil","status":"publish","type":"post","link":"https:\/\/magazineoffice.com\/use-la-nueva-tecnologia-de-openai-para-transcribir-audio-directamente-en-mi-computadora-portatil\/","title":{"rendered":"Us\u00e9 la nueva tecnolog\u00eda de OpenAI para transcribir audio directamente en mi computadora port\u00e1til"},"content":{"rendered":"<p> <br \/>\n<\/p>\n<div>\n<div class=\"duet--article--article-body-component\">\n<p class=\"duet--article--dangerously-set-cms-markup duet--article--standard-paragraph mb-20 font-fkroman text-18 -tracking-1 leading-160 dark:text-white selection:bg-franklin-20 dark:selection:bg-blurple [&#038;_a]:shadow-underline-black [&#038;_a:hover]:shadow-highlight-franklin dark:[&#038;_a:hover]:shadow-highlight-franklin dark:[&#038;_a]:shadow-underline-white\">OpenAI, la empresa detr\u00e1s de la generaci\u00f3n de im\u00e1genes y la generaci\u00f3n de memes <a rel=\"nofollow noopener\" target=\"_blank\" href=\"https:\/\/www.theverge.com\/2022\/9\/5\/23337580\/openai-dall-e-text-to-image-generator-outpainting-native-function\">programa DALL-E<\/a> y el <a rel=\"nofollow noopener\" target=\"_blank\" href=\"https:\/\/www.theverge.com\/21346343\/gpt-3-explainer-openai-examples-errors-agi-potential\">potente motor de autocompletado de texto GPT-3,<\/a> ha lanzado una nueva red neuronal de c\u00f3digo abierto destinada a transcribir audio en texto escrito (<a rel=\"nofollow noopener\" target=\"_blank\" href=\"https:\/\/techcrunch.com\/2022\/09\/21\/openai-open-sources-whisper-a-multilingual-speech-recognition-system\/\">a trav\u00e9s de <em>TechCrunch<\/em><\/a>).  Se llama Susurro, y <a rel=\"nofollow noopener\" target=\"_blank\" href=\"https:\/\/openai.com\/blog\/whisper\/\">la empresa dice<\/a> \u201cse acerca a la solidez y precisi\u00f3n del nivel humano en el reconocimiento de voz en ingl\u00e9s\u201d y que tambi\u00e9n puede reconocer, transcribir y traducir autom\u00e1ticamente otros idiomas como espa\u00f1ol, italiano y japon\u00e9s.<\/p>\n<\/div>\n<div class=\"duet--article--article-body-component\">\n<p class=\"duet--article--dangerously-set-cms-markup duet--article--standard-paragraph mb-20 font-fkroman text-18 -tracking-1 leading-160 dark:text-white selection:bg-franklin-20 dark:selection:bg-blurple [&#038;_a]:shadow-underline-black [&#038;_a:hover]:shadow-highlight-franklin dark:[&#038;_a:hover]:shadow-highlight-franklin dark:[&#038;_a]:shadow-underline-white\">Como alguien que constantemente graba y transcribe entrevistas, esta noticia me entusiasm\u00f3 de inmediato: pens\u00e9 que podr\u00eda escribir mi propia aplicaci\u00f3n para transcribir audio de forma segura directamente desde mi computadora.  Si bien los servicios basados \u200b\u200ben la nube como Otter.ai y Trint funcionan para la mayor\u00eda de las cosas y son relativamente seguros, solo hay algunas entrevistas en las que yo o mis fuentes <a rel=\"nofollow noopener\" target=\"_blank\" href=\"https:\/\/www.theverge.com\/2022\/2\/16\/22937766\/go-read-this-otter-ai-transcription-data-privacy-report\">sentirse m\u00e1s c\u00f3modo<\/a> si el archivo de audio permaneci\u00f3 fuera de Internet.<\/p>\n<\/div>\n<div class=\"duet--article--article-body-component\">\n<p class=\"duet--article--dangerously-set-cms-markup duet--article--standard-paragraph mb-20 font-fkroman text-18 -tracking-1 leading-160 dark:text-white selection:bg-franklin-20 dark:selection:bg-blurple [&#038;_a]:shadow-underline-black [&#038;_a:hover]:shadow-highlight-franklin dark:[&#038;_a:hover]:shadow-highlight-franklin dark:[&#038;_a]:shadow-underline-white\">Usarlo result\u00f3 ser a\u00fan m\u00e1s f\u00e1cil de lo que hab\u00eda imaginado;  Ya tengo Python y varias herramientas de desarrollo configuradas en mi computadora, por lo que instalar Whisper fue tan f\u00e1cil como ejecutar un solo comando de Terminal.  En 15 minutos, pude usar Whisper para transcribir un clip de audio de prueba que hab\u00eda grabado.  Para alguien relativamente experto en tecnolog\u00eda que a\u00fan no ten\u00eda Python, FFmpeg, Xcode y Homebrew configurados, probablemente tomar\u00eda cerca de una hora o dos.  Sin embargo, ya hay alguien trabajando para hacer que el proceso sea mucho m\u00e1s simple y f\u00e1cil de usar, del que hablaremos en un segundo.<\/p>\n<\/div>\n<div class=\"duet--article--article-body-component block clear-both\">\n<figure class=\"my-9 lg:mx-0\">\n<div class=\"duet--media--content-warning relative\" style=\"padding-top:12.666666666666668%\"><span style=\"box-sizing:border-box;display:block;overflow:hidden;width:initial;height:initial;background:none;opacity:1;border:0;margin:0;padding:0;position:absolute;top:0;left:0;bottom:0;right:0\"><noscript><img alt=\"Las aplicaciones de l\u00ednea de comandos obviamente no son para todos, pero para algo que est\u00e1 haciendo un trabajo relativamente complejo, Whisper es muy f\u00e1cil de usar.\" sizes=\"(max-width: 1023px) 100vw, 744px\" srcset=\"\/_next\/image?url=https%3A%2F%2Fcdn.vox-cdn.com%2Fthumbor%2FnZk9XVvo7eI23cjYB_tgRgl9Vdo%3D%2F0x0%3A2100x266%2F2100x266%2Ffilters%3Afocal(1050x133%3A1051x134)%2Fcdn.vox-cdn.com%2Fuploads%2Fchorus_asset%2Ffile%2F24048708%2FScreenshot_2022_09_21_at_10.54.53.png&#038;w=376&#038;q=75 376w, \/_next\/image?url=https%3A%2F%2Fcdn.vox-cdn.com%2Fthumbor%2FnZk9XVvo7eI23cjYB_tgRgl9Vdo%3D%2F0x0%3A2100x266%2F2100x266%2Ffilters%3Afocal(1050x133%3A1051x134)%2Fcdn.vox-cdn.com%2Fuploads%2Fchorus_asset%2Ffile%2F24048708%2FScreenshot_2022_09_21_at_10.54.53.png&#038;w=384&#038;q=75 384w, \/_next\/image?url=https%3A%2F%2Fcdn.vox-cdn.com%2Fthumbor%2FnZk9XVvo7eI23cjYB_tgRgl9Vdo%3D%2F0x0%3A2100x266%2F2100x266%2Ffilters%3Afocal(1050x133%3A1051x134)%2Fcdn.vox-cdn.com%2Fuploads%2Fchorus_asset%2Ffile%2F24048708%2FScreenshot_2022_09_21_at_10.54.53.png&#038;w=415&#038;q=75 415w, \/_next\/image?url=https%3A%2F%2Fcdn.vox-cdn.com%2Fthumbor%2FnZk9XVvo7eI23cjYB_tgRgl9Vdo%3D%2F0x0%3A2100x266%2F2100x266%2Ffilters%3Afocal(1050x133%3A1051x134)%2Fcdn.vox-cdn.com%2Fuploads%2Fchorus_asset%2Ffile%2F24048708%2FScreenshot_2022_09_21_at_10.54.53.png&#038;w=480&#038;q=75 480w, \/_next\/image?url=https%3A%2F%2Fcdn.vox-cdn.com%2Fthumbor%2FnZk9XVvo7eI23cjYB_tgRgl9Vdo%3D%2F0x0%3A2100x266%2F2100x266%2Ffilters%3Afocal(1050x133%3A1051x134)%2Fcdn.vox-cdn.com%2Fuploads%2Fchorus_asset%2Ffile%2F24048708%2FScreenshot_2022_09_21_at_10.54.53.png&#038;w=540&#038;q=75 540w, \/_next\/image?url=https%3A%2F%2Fcdn.vox-cdn.com%2Fthumbor%2FnZk9XVvo7eI23cjYB_tgRgl9Vdo%3D%2F0x0%3A2100x266%2F2100x266%2Ffilters%3Afocal(1050x133%3A1051x134)%2Fcdn.vox-cdn.com%2Fuploads%2Fchorus_asset%2Ffile%2F24048708%2FScreenshot_2022_09_21_at_10.54.53.png&#038;w=640&#038;q=75 640w, \/_next\/image?url=https%3A%2F%2Fcdn.vox-cdn.com%2Fthumbor%2FnZk9XVvo7eI23cjYB_tgRgl9Vdo%3D%2F0x0%3A2100x266%2F2100x266%2Ffilters%3Afocal(1050x133%3A1051x134)%2Fcdn.vox-cdn.com%2Fuploads%2Fchorus_asset%2Ffile%2F24048708%2FScreenshot_2022_09_21_at_10.54.53.png&#038;w=750&#038;q=75 750w, \/_next\/image?url=https%3A%2F%2Fcdn.vox-cdn.com%2Fthumbor%2FnZk9XVvo7eI23cjYB_tgRgl9Vdo%3D%2F0x0%3A2100x266%2F2100x266%2Ffilters%3Afocal(1050x133%3A1051x134)%2Fcdn.vox-cdn.com%2Fuploads%2Fchorus_asset%2Ffile%2F24048708%2FScreenshot_2022_09_21_at_10.54.53.png&#038;w=828&#038;q=75 828w, \/_next\/image?url=https%3A%2F%2Fcdn.vox-cdn.com%2Fthumbor%2FnZk9XVvo7eI23cjYB_tgRgl9Vdo%3D%2F0x0%3A2100x266%2F2100x266%2Ffilters%3Afocal(1050x133%3A1051x134)%2Fcdn.vox-cdn.com%2Fuploads%2Fchorus_asset%2Ffile%2F24048708%2FScreenshot_2022_09_21_at_10.54.53.png&#038;w=1080&#038;q=75 1080w, \/_next\/image?url=https%3A%2F%2Fcdn.vox-cdn.com%2Fthumbor%2FnZk9XVvo7eI23cjYB_tgRgl9Vdo%3D%2F0x0%3A2100x266%2F2100x266%2Ffilters%3Afocal(1050x133%3A1051x134)%2Fcdn.vox-cdn.com%2Fuploads%2Fchorus_asset%2Ffile%2F24048708%2FScreenshot_2022_09_21_at_10.54.53.png&#038;w=1200&#038;q=75 1200w, \/_next\/image?url=https%3A%2F%2Fcdn.vox-cdn.com%2Fthumbor%2FnZk9XVvo7eI23cjYB_tgRgl9Vdo%3D%2F0x0%3A2100x266%2F2100x266%2Ffilters%3Afocal(1050x133%3A1051x134)%2Fcdn.vox-cdn.com%2Fuploads%2Fchorus_asset%2Ffile%2F24048708%2FScreenshot_2022_09_21_at_10.54.53.png&#038;w=1440&#038;q=75 1440w, \/_next\/image?url=https%3A%2F%2Fcdn.vox-cdn.com%2Fthumbor%2FnZk9XVvo7eI23cjYB_tgRgl9Vdo%3D%2F0x0%3A2100x266%2F2100x266%2Ffilters%3Afocal(1050x133%3A1051x134)%2Fcdn.vox-cdn.com%2Fuploads%2Fchorus_asset%2Ffile%2F24048708%2FScreenshot_2022_09_21_at_10.54.53.png&#038;w=1920&#038;q=75 1920w, \/_next\/image?url=https%3A%2F%2Fcdn.vox-cdn.com%2Fthumbor%2FnZk9XVvo7eI23cjYB_tgRgl9Vdo%3D%2F0x0%3A2100x266%2F2100x266%2Ffilters%3Afocal(1050x133%3A1051x134)%2Fcdn.vox-cdn.com%2Fuploads%2Fchorus_asset%2Ffile%2F24048708%2FScreenshot_2022_09_21_at_10.54.53.png&#038;w=2048&#038;q=75 2048w, \/_next\/image?url=https%3A%2F%2Fcdn.vox-cdn.com%2Fthumbor%2FnZk9XVvo7eI23cjYB_tgRgl9Vdo%3D%2F0x0%3A2100x266%2F2100x266%2Ffilters%3Afocal(1050x133%3A1051x134)%2Fcdn.vox-cdn.com%2Fuploads%2Fchorus_asset%2Ffile%2F24048708%2FScreenshot_2022_09_21_at_10.54.53.png&#038;w=2400&#038;q=75 2400w\" src=\"https:\/\/www.theverge.com\/_next\/image?url=https%3A%2F%2Fcdn.vox-cdn.com%2Fthumbor%2FnZk9XVvo7eI23cjYB_tgRgl9Vdo%3D%2F0x0%3A2100x266%2F2100x266%2Ffilters%3Afocal(1050x133%3A1051x134)%2Fcdn.vox-cdn.com%2Fuploads%2Fchorus_asset%2Ffile%2F24048708%2FScreenshot_2022_09_21_at_10.54.53.png&#038;w=2400&#038;q=75\" decoding=\"async\" data-nimg=\"fill\" style=\"position:absolute;top:0;left:0;bottom:0;right:0;box-sizing:border-box;padding:0;border:none;margin:auto;display:block;width:0;height:0;min-width:100%;max-width:100%;min-height:100%;max-height:100%;object-fit:cover\" loading=\"lazy\"\/><\/noscript><\/span><\/div>\n<p><figcaption class=\"duet--article--dangerously-set-cms-markup inline text-gray-e9 [&#038;>a: pasar el cursor]: texto-negro [&#038;>a]:sombra-subrayado-gris-13 [&#038;>a:hover]:sombra-subrayado-texto negro-gris-13&#8243;><em>Las aplicaciones de l\u00ednea de comandos obviamente no son para todos, pero para algo que est\u00e1 haciendo un trabajo relativamente complejo, Whisper es muy f\u00e1cil de usar.<\/em><\/figcaption><\/p>\n<\/figure>\n<\/div>\n<div class=\"duet--article--article-body-component\">\n<p class=\"duet--article--dangerously-set-cms-markup duet--article--standard-paragraph mb-20 font-fkroman text-18 -tracking-1 leading-160 dark:text-white selection:bg-franklin-20 dark:selection:bg-blurple [&#038;_a]:shadow-underline-black [&#038;_a:hover]:shadow-highlight-franklin dark:[&#038;_a:hover]:shadow-highlight-franklin dark:[&#038;_a]:shadow-underline-white\">Mientras que OpenAI <a rel=\"nofollow noopener\" target=\"_blank\" href=\"https:\/\/github.com\/openai\/whisper\/blob\/main\/model-card.md\">definitivamente vio este caso de uso como una posibilidad<\/a>, est\u00e1 bastante claro que la compa\u00f1\u00eda se dirige principalmente a investigadores y desarrolladores con este lanzamiento.  En <a rel=\"nofollow noopener\" target=\"_blank\" href=\"https:\/\/openai.com\/blog\/whisper\/\">la publicaci\u00f3n de blog que anuncia Whisper<\/a>, el equipo dijo que su c\u00f3digo podr\u00eda \u00abservir como base para crear aplicaciones \u00fatiles y para futuras investigaciones sobre procesamiento de voz s\u00f3lido\u00bb y que espera que \u00abla alta precisi\u00f3n y la facilidad de uso de Whisper permitan a los desarrolladores agregar interfaces de voz a un conjunto mucho m\u00e1s amplio de aplicaciones.\u201d  Sin embargo, este enfoque sigue siendo notable: la empresa tiene acceso limitado a sus proyectos de aprendizaje autom\u00e1tico m\u00e1s populares, como DALL-E o GPT-3, <a rel=\"nofollow noopener\" target=\"_blank\" href=\"https:\/\/techcrunch.com\/2022\/07\/20\/openai-expands-access-to-dall-e-2-its-powerful-image-generating-ai-system\/\">citando un deseo<\/a> para \u00abaprender m\u00e1s sobre el uso en el mundo real y continuar iterando en nuestros sistemas de seguridad\u00bb.<\/p>\n<\/div>\n<div class=\"duet--article--article-body-component block clear-both\">\n<figure class=\"my-9 lg:mx-0\">\n<div class=\"duet--media--content-warning relative\" style=\"padding-top:26.142857142857146%\"><span style=\"box-sizing:border-box;display:block;overflow:hidden;width:initial;height:initial;background:none;opacity:1;border:0;margin:0;padding:0;position:absolute;top:0;left:0;bottom:0;right:0\"><img alt=\"Imagen que muestra un archivo de texto con la letra transcrita de la canci\u00f3n de Yung Gravy \"Betty (Get Money)\".  La transcripci\u00f3n contiene muchas inexactitudes.\" src=\"data:image\/gif;base64,R0lGODlhAQABAIAAAAAAAP\/\/\/yH5BAEAAAAALAAAAAABAAEAAAIBRAA7\" decoding=\"async\" data-nimg=\"fill\" style=\"position:absolute;top:0;left:0;bottom:0;right:0;box-sizing:border-box;padding:0;border:none;margin:auto;display:block;width:0;height:0;min-width:100%;max-width:100%;min-height:100%;max-height:100%;object-fit:cover\"\/><noscript><img alt=\"Imagen que muestra un archivo de texto con la letra transcrita de la canci\u00f3n de Yung Gravy \"Betty (Get Money)\".  La transcripci\u00f3n contiene muchas inexactitudes.\" sizes=\"(max-width: 1023px) 100vw, 744px\" srcset=\"\/_next\/image?url=https%3A%2F%2Fcdn.vox-cdn.com%2Fthumbor%2Fhg_JlkXdZerge-0Cwvd1AZjcAnU%3D%2F0x0%3A1400x366%2F1400x366%2Ffilters%3Afocal(700x183%3A701x184)%2Fcdn.vox-cdn.com%2Fuploads%2Fchorus_asset%2Ffile%2F24049159%2FScreenshot_2022_09_23_at_12.26.56.png&#038;w=376&#038;q=75 376w, \/_next\/image?url=https%3A%2F%2Fcdn.vox-cdn.com%2Fthumbor%2Fhg_JlkXdZerge-0Cwvd1AZjcAnU%3D%2F0x0%3A1400x366%2F1400x366%2Ffilters%3Afocal(700x183%3A701x184)%2Fcdn.vox-cdn.com%2Fuploads%2Fchorus_asset%2Ffile%2F24049159%2FScreenshot_2022_09_23_at_12.26.56.png&#038;w=384&#038;q=75 384w, \/_next\/image?url=https%3A%2F%2Fcdn.vox-cdn.com%2Fthumbor%2Fhg_JlkXdZerge-0Cwvd1AZjcAnU%3D%2F0x0%3A1400x366%2F1400x366%2Ffilters%3Afocal(700x183%3A701x184)%2Fcdn.vox-cdn.com%2Fuploads%2Fchorus_asset%2Ffile%2F24049159%2FScreenshot_2022_09_23_at_12.26.56.png&#038;w=415&#038;q=75 415w, \/_next\/image?url=https%3A%2F%2Fcdn.vox-cdn.com%2Fthumbor%2Fhg_JlkXdZerge-0Cwvd1AZjcAnU%3D%2F0x0%3A1400x366%2F1400x366%2Ffilters%3Afocal(700x183%3A701x184)%2Fcdn.vox-cdn.com%2Fuploads%2Fchorus_asset%2Ffile%2F24049159%2FScreenshot_2022_09_23_at_12.26.56.png&#038;w=480&#038;q=75 480w, \/_next\/image?url=https%3A%2F%2Fcdn.vox-cdn.com%2Fthumbor%2Fhg_JlkXdZerge-0Cwvd1AZjcAnU%3D%2F0x0%3A1400x366%2F1400x366%2Ffilters%3Afocal(700x183%3A701x184)%2Fcdn.vox-cdn.com%2Fuploads%2Fchorus_asset%2Ffile%2F24049159%2FScreenshot_2022_09_23_at_12.26.56.png&#038;w=540&#038;q=75 540w, \/_next\/image?url=https%3A%2F%2Fcdn.vox-cdn.com%2Fthumbor%2Fhg_JlkXdZerge-0Cwvd1AZjcAnU%3D%2F0x0%3A1400x366%2F1400x366%2Ffilters%3Afocal(700x183%3A701x184)%2Fcdn.vox-cdn.com%2Fuploads%2Fchorus_asset%2Ffile%2F24049159%2FScreenshot_2022_09_23_at_12.26.56.png&#038;w=640&#038;q=75 640w, \/_next\/image?url=https%3A%2F%2Fcdn.vox-cdn.com%2Fthumbor%2Fhg_JlkXdZerge-0Cwvd1AZjcAnU%3D%2F0x0%3A1400x366%2F1400x366%2Ffilters%3Afocal(700x183%3A701x184)%2Fcdn.vox-cdn.com%2Fuploads%2Fchorus_asset%2Ffile%2F24049159%2FScreenshot_2022_09_23_at_12.26.56.png&#038;w=750&#038;q=75 750w, \/_next\/image?url=https%3A%2F%2Fcdn.vox-cdn.com%2Fthumbor%2Fhg_JlkXdZerge-0Cwvd1AZjcAnU%3D%2F0x0%3A1400x366%2F1400x366%2Ffilters%3Afocal(700x183%3A701x184)%2Fcdn.vox-cdn.com%2Fuploads%2Fchorus_asset%2Ffile%2F24049159%2FScreenshot_2022_09_23_at_12.26.56.png&#038;w=828&#038;q=75 828w, \/_next\/image?url=https%3A%2F%2Fcdn.vox-cdn.com%2Fthumbor%2Fhg_JlkXdZerge-0Cwvd1AZjcAnU%3D%2F0x0%3A1400x366%2F1400x366%2Ffilters%3Afocal(700x183%3A701x184)%2Fcdn.vox-cdn.com%2Fuploads%2Fchorus_asset%2Ffile%2F24049159%2FScreenshot_2022_09_23_at_12.26.56.png&#038;w=1080&#038;q=75 1080w, \/_next\/image?url=https%3A%2F%2Fcdn.vox-cdn.com%2Fthumbor%2Fhg_JlkXdZerge-0Cwvd1AZjcAnU%3D%2F0x0%3A1400x366%2F1400x366%2Ffilters%3Afocal(700x183%3A701x184)%2Fcdn.vox-cdn.com%2Fuploads%2Fchorus_asset%2Ffile%2F24049159%2FScreenshot_2022_09_23_at_12.26.56.png&#038;w=1200&#038;q=75 1200w, \/_next\/image?url=https%3A%2F%2Fcdn.vox-cdn.com%2Fthumbor%2Fhg_JlkXdZerge-0Cwvd1AZjcAnU%3D%2F0x0%3A1400x366%2F1400x366%2Ffilters%3Afocal(700x183%3A701x184)%2Fcdn.vox-cdn.com%2Fuploads%2Fchorus_asset%2Ffile%2F24049159%2FScreenshot_2022_09_23_at_12.26.56.png&#038;w=1440&#038;q=75 1440w, \/_next\/image?url=https%3A%2F%2Fcdn.vox-cdn.com%2Fthumbor%2Fhg_JlkXdZerge-0Cwvd1AZjcAnU%3D%2F0x0%3A1400x366%2F1400x366%2Ffilters%3Afocal(700x183%3A701x184)%2Fcdn.vox-cdn.com%2Fuploads%2Fchorus_asset%2Ffile%2F24049159%2FScreenshot_2022_09_23_at_12.26.56.png&#038;w=1920&#038;q=75 1920w, \/_next\/image?url=https%3A%2F%2Fcdn.vox-cdn.com%2Fthumbor%2Fhg_JlkXdZerge-0Cwvd1AZjcAnU%3D%2F0x0%3A1400x366%2F1400x366%2Ffilters%3Afocal(700x183%3A701x184)%2Fcdn.vox-cdn.com%2Fuploads%2Fchorus_asset%2Ffile%2F24049159%2FScreenshot_2022_09_23_at_12.26.56.png&#038;w=2048&#038;q=75 2048w, \/_next\/image?url=https%3A%2F%2Fcdn.vox-cdn.com%2Fthumbor%2Fhg_JlkXdZerge-0Cwvd1AZjcAnU%3D%2F0x0%3A1400x366%2F1400x366%2Ffilters%3Afocal(700x183%3A701x184)%2Fcdn.vox-cdn.com%2Fuploads%2Fchorus_asset%2Ffile%2F24049159%2FScreenshot_2022_09_23_at_12.26.56.png&#038;w=2400&#038;q=75 2400w\" src=\"https:\/\/www.theverge.com\/_next\/image?url=https%3A%2F%2Fcdn.vox-cdn.com%2Fthumbor%2Fhg_JlkXdZerge-0Cwvd1AZjcAnU%3D%2F0x0%3A1400x366%2F1400x366%2Ffilters%3Afocal(700x183%3A701x184)%2Fcdn.vox-cdn.com%2Fuploads%2Fchorus_asset%2Ffile%2F24049159%2FScreenshot_2022_09_23_at_12.26.56.png&#038;w=2400&#038;q=75\" decoding=\"async\" data-nimg=\"fill\" style=\"position:absolute;top:0;left:0;bottom:0;right:0;box-sizing:border-box;padding:0;border:none;margin:auto;display:block;width:0;height:0;min-width:100%;max-width:100%;min-height:100%;max-height:100%;object-fit:cover\" loading=\"lazy\"\/><\/noscript><\/span><\/div>\n<p><figcaption class=\"duet--article--dangerously-set-cms-markup inline text-gray-e9 [&#038;>a: pasar el cursor]: texto-negro [&#038;>a]:sombra-subrayado-gris-13 [&#038;>a:hover]:sombra-subrayado-texto negro-gris-13&#8243;><em>Los archivos de texto que produce Whisper tampoco son exactamente los m\u00e1s f\u00e1ciles de leer si los est\u00e1 utilizando para escribir un art\u00edculo.<\/em><\/figcaption><\/p>\n<\/figure>\n<\/div>\n<div class=\"duet--article--article-body-component\">\n<p class=\"duet--article--dangerously-set-cms-markup duet--article--standard-paragraph mb-20 font-fkroman text-18 -tracking-1 leading-160 dark:text-white selection:bg-franklin-20 dark:selection:bg-blurple [&#038;_a]:shadow-underline-black [&#038;_a:hover]:shadow-highlight-franklin dark:[&#038;_a:hover]:shadow-highlight-franklin dark:[&#038;_a]:shadow-underline-white\">Tambi\u00e9n est\u00e1 el hecho de que no es exactamente un proceso f\u00e1cil de usar para instalar Whisper para la mayor\u00eda de las personas.  Sin embargo, el periodista Peter Sterne se ha asociado con la defensora de desarrolladores de GitHub, Christina Warren. <a rel=\"nofollow noopener\" target=\"_blank\" href=\"https:\/\/twitter.com\/petersterne\/status\/1573089674746335232\">para tratar de arreglar eso<\/a>, anunciando que est\u00e1n creando una \u00abaplicaci\u00f3n de transcripci\u00f3n gratuita, segura y f\u00e1cil de usar para periodistas\u00bb basada en el modelo de aprendizaje autom\u00e1tico de Whisper.  Habl\u00e9 con Sterne y me dijo que decidi\u00f3 que el programa, llamado Stage Whisper, deber\u00eda existir despu\u00e9s de realizar algunas entrevistas y determinar que era \u00abla mejor transcripci\u00f3n que hab\u00eda usado, con la excepci\u00f3n de los transcriptores humanos\u00bb.<\/p>\n<\/div>\n<div class=\"duet--article--article-body-component\">\n<p class=\"duet--article--dangerously-set-cms-markup duet--article--standard-paragraph mb-20 font-fkroman text-18 -tracking-1 leading-160 dark:text-white selection:bg-franklin-20 dark:selection:bg-blurple [&#038;_a]:shadow-underline-black [&#038;_a:hover]:shadow-highlight-franklin dark:[&#038;_a:hover]:shadow-highlight-franklin dark:[&#038;_a]:shadow-underline-white\">Compar\u00e9 una transcripci\u00f3n generada por Whisper con lo que Otter.ai y Trint publicaron para el mismo archivo, y dir\u00eda que era relativamente comparable.  Hubo suficientes errores en todos ellos que nunca copiar\u00eda y pegar\u00eda citas de ellos en un art\u00edculo sin verificar dos veces el audio (que es, por supuesto, la mejor pr\u00e1ctica de todos modos, sin importar qu\u00e9 servicio est\u00e9 utilizando).  Pero la versi\u00f3n de Whisper absolutamente har\u00eda el trabajo por m\u00ed;  Puedo buscar a trav\u00e9s de \u00e9l para encontrar las secciones que necesito y luego simplemente verificarlas manualmente.  En teor\u00eda, Stage Whisper deber\u00eda funcionar exactamente igual, ya que usar\u00e1 el mismo modelo, solo con una GUI envuelta.<\/p>\n<\/div>\n<div class=\"duet--article--article-body-component\">\n<p class=\"duet--article--dangerously-set-cms-markup duet--article--standard-paragraph mb-20 font-fkroman text-18 -tracking-1 leading-160 dark:text-white selection:bg-franklin-20 dark:selection:bg-blurple [&#038;_a]:shadow-underline-black [&#038;_a:hover]:shadow-highlight-franklin dark:[&#038;_a:hover]:shadow-highlight-franklin dark:[&#038;_a]:shadow-underline-white\">Sterne admiti\u00f3 que la tecnolog\u00eda de Apple y Google podr\u00eda hacer que Stage Whisper quede obsoleto en unos pocos a\u00f1os: la aplicaci\u00f3n de grabadora de voz de Pixel ha podido hacer transcripciones sin conexi\u00f3n durante a\u00f1os, y una versi\u00f3n de esa funci\u00f3n est\u00e1 comenzando a funcionar. <a rel=\"nofollow noopener\" target=\"_blank\" href=\"https:\/\/9to5google.com\/2022\/03\/10\/google-live-transcribe-feature-now-works-when-offline\/\">despliegue a algunos otros dispositivos Android<\/a>y Apple tiene el dictado fuera de l\u00ednea incorporado <a rel=\"nofollow noopener\" target=\"_blank\" href=\"https:\/\/support.apple.com\/en-us\/HT208343\">iOS<\/a> (aunque actualmente no hay una buena manera de transcribir archivos de audio con \u00e9l).  \u201cPero no podemos esperar tanto\u201d, dijo Sterne.  \u201cLos periodistas como nosotros necesitamos buenas aplicaciones de transcripci\u00f3n autom\u00e1tica hoy\u201d.  Espera tener lista una versi\u00f3n b\u00e1sica de la aplicaci\u00f3n basada en Whisper en dos semanas. <\/p>\n<\/div>\n<div class=\"duet--article--article-body-component\">\n<p class=\"duet--article--dangerously-set-cms-markup duet--article--standard-paragraph mb-20 font-fkroman text-18 -tracking-1 leading-160 dark:text-white selection:bg-franklin-20 dark:selection:bg-blurple [&#038;_a]:shadow-underline-black [&#038;_a:hover]:shadow-highlight-franklin dark:[&#038;_a:hover]:shadow-highlight-franklin dark:[&#038;_a]:shadow-underline-white\">Para ser claros, es probable que Whisper no deje totalmente obsoletos los servicios basados \u200b\u200ben la nube como Otter.ai y Trint, sin importar cu\u00e1n f\u00e1cil sea de usar.  Por un lado, al modelo de OpenAI le falta una de las caracter\u00edsticas m\u00e1s importantes de los servicios de transcripci\u00f3n tradicionales: poder etiquetar qui\u00e9n dijo qu\u00e9.  Sterne dijo que Stage Whisper probablemente no admitir\u00eda esta caracter\u00edstica: \u00abno estamos desarrollando nuestro propio modelo de aprendizaje autom\u00e1tico\u00bb.<\/p>\n<\/div>\n<div class=\"duet--article--article-body-component block clear-both md:float-left md:mr-30 md:w-[320px] lg:-ml-100\">\n<div class=\"duet--article--article-pullquote mb-20\">\n<p class=\"duet--article--dangerously-set-cms-markup relative pb-8 font-polysans text-28 font-medium tracking-1 leading-120 dark:text-white selection:bg-franklin-20 dark:selection:bg-blurple bg-[length:1px_1.2em] bg-repeating-lines-dark dark:bg-repeating-lines-light\">La nube es solo la computadora de otra persona, lo que probablemente significa que es un poco m\u00e1s r\u00e1pido<\/p>\n<\/div>\n<\/div>\n<div class=\"duet--article--article-body-component\">\n<p class=\"duet--article--dangerously-set-cms-markup duet--article--standard-paragraph mb-20 font-fkroman text-18 -tracking-1 leading-160 dark:text-white selection:bg-franklin-20 dark:selection:bg-blurple [&#038;_a]:shadow-underline-black [&#038;_a:hover]:shadow-highlight-franklin dark:[&#038;_a:hover]:shadow-highlight-franklin dark:[&#038;_a]:shadow-underline-white\">Y mientras obtiene los beneficios del procesamiento local, tambi\u00e9n obtiene los inconvenientes.  La principal es que su computadora port\u00e1til es casi con seguridad significativamente menos potente que las computadoras que utiliza un servicio de transcripci\u00f3n profesional.  Por ejemplo, introduje el audio de una entrevista de 24 minutos en Whisper, que se ejecuta en mi M1 MacBook Pro;  tom\u00f3 alrededor de 52 minutos transcribir todo el archivo.  (S\u00ed, me asegur\u00e9 de que estuviera usando la versi\u00f3n Apple Silicon de Python en lugar de la de Intel). Otter escupi\u00f3 una transcripci\u00f3n en menos de ocho minutos. <\/p>\n<\/div>\n<div class=\"duet--article--article-body-component\">\n<p class=\"duet--article--dangerously-set-cms-markup duet--article--standard-paragraph mb-20 font-fkroman text-18 -tracking-1 leading-160 dark:text-white selection:bg-franklin-20 dark:selection:bg-blurple [&#038;_a]:shadow-underline-black [&#038;_a:hover]:shadow-highlight-franklin dark:[&#038;_a:hover]:shadow-highlight-franklin dark:[&#038;_a]:shadow-underline-white\">Sin embargo, la tecnolog\u00eda de OpenAI tiene una gran ventaja: el precio.  Es casi seguro que los servicios de suscripci\u00f3n basados \u200b\u200ben la nube le costar\u00e1n dinero si los usa profesionalmente (Otter tiene un nivel gratuito, pero <a rel=\"nofollow noopener\" target=\"_blank\" href=\"https:\/\/www.theverge.com\/2022\/8\/19\/23312700\/otter-transcription-service-free-paid-plans-september-27-changes-features\">pr\u00f3ximos cambios<\/a> van a hacer que sea menos \u00fatil para las personas que transcriben cosas con frecuencia), y las funciones de transcripci\u00f3n integradas en plataformas como <a rel=\"nofollow noopener\" target=\"_blank\" href=\"https:\/\/support.microsoft.com\/en-us\/office\/transcribe-your-recordings-7fc2efec-245e-45f0-b053-2a97531ecf57\">Microsoft Word<\/a> o el Pixel requieren que pague por software o hardware por separado.  Stage Whisper, y Whisper en s\u00ed mismo, es gratuito y puede ejecutarse en la computadora que ya tiene.<\/p>\n<\/div>\n<div class=\"duet--article--article-body-component\">\n<p class=\"duet--article--dangerously-set-cms-markup duet--article--standard-paragraph mb-20 font-fkroman text-18 -tracking-1 leading-160 dark:text-white selection:bg-franklin-20 dark:selection:bg-blurple [&#038;_a]:shadow-underline-black [&#038;_a:hover]:shadow-highlight-franklin dark:[&#038;_a:hover]:shadow-highlight-franklin dark:[&#038;_a]:shadow-underline-white\">Nuevamente, OpenAI tiene m\u00e1s esperanzas en Whisper que en ser la base para una aplicaci\u00f3n de transcripci\u00f3n segura, y estoy muy entusiasmado con lo que los investigadores terminar\u00e1n haciendo con \u00e9l o lo que aprender\u00e1n al observar el modelo de aprendizaje autom\u00e1tico, que fue entrenado. sobre \u201c680.000 horas de datos supervisados \u200b\u200bmultiling\u00fces y multitarea recopilados de la web\u201d.  Pero el hecho de que tambi\u00e9n tenga un uso real y pr\u00e1ctico en la actualidad lo hace a\u00fan m\u00e1s emocionante. <\/p>\n<\/div>\n<\/div>\n<p><script async src=\"\/\/platform.twitter.com\/widgets.js\" charset=\"utf-8\"><\/script><br \/>\n<br \/><br \/>\n<br \/><a href=\"https:\/\/www.theverge.com\/2022\/9\/23\/23367296\/openai-whisper-transcription-speech-recognition-open-source\" target=\"_blank\" rel=\"noopener\">Source link-37 <\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>OpenAI, la empresa detr\u00e1s de la generaci\u00f3n de im\u00e1genes y la generaci\u00f3n de memes programa DALL-E y el potente motor de autocompletado de texto GPT-3, ha lanzado una nueva red&hellip;<\/p>\n","protected":false},"author":1,"featured_media":189456,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[21980],"tags":[5394,3720,7352,254,49133,107,3721,4491,36854,28369],"_links":{"self":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/189455"}],"collection":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/comments?post=189455"}],"version-history":[{"count":1,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/189455\/revisions"}],"predecessor-version":[{"id":189457,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/189455\/revisions\/189457"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/media\/189456"}],"wp:attachment":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/media?parent=189455"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/categories?post=189455"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/tags?post=189455"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}