OpenAI, la empresa detrás de la generación de imágenes y la generación de memes programa DALL-E y el potente motor de autocompletado de texto GPT-3, ha lanzado una nueva red neuronal de código abierto destinada a transcribir audio en texto escrito (a través de TechCrunch). Se llama Susurro, y la empresa dice “se acerca a la solidez y precisión del nivel humano en el reconocimiento de voz en inglés” y que también puede reconocer, transcribir y traducir automáticamente otros idiomas como español, italiano y japonés.
Como alguien que constantemente graba y transcribe entrevistas, esta noticia me entusiasmó de inmediato: pensé que podría escribir mi propia aplicación para transcribir audio de forma segura directamente desde mi computadora. Si bien los servicios basados en la nube como Otter.ai y Trint funcionan para la mayoría de las cosas y son relativamente seguros, solo hay algunas entrevistas en las que yo o mis fuentes sentirse más cómodo si el archivo de audio permaneció fuera de Internet.
Usarlo resultó ser aún más fácil de lo que había imaginado; Ya tengo Python y varias herramientas de desarrollo configuradas en mi computadora, por lo que instalar Whisper fue tan fácil como ejecutar un solo comando de Terminal. En 15 minutos, pude usar Whisper para transcribir un clip de audio de prueba que había grabado. Para alguien relativamente experto en tecnología que aún no tenía Python, FFmpeg, Xcode y Homebrew configurados, probablemente tomaría cerca de una hora o dos. Sin embargo, ya hay alguien trabajando para hacer que el proceso sea mucho más simple y fácil de usar, del que hablaremos en un segundo.
Comparé una transcripción generada por Whisper con lo que Otter.ai y Trint publicaron para el mismo archivo, y diría que era relativamente comparable. Hubo suficientes errores en todos ellos que nunca copiaría y pegaría citas de ellos en un artículo sin verificar dos veces el audio (que es, por supuesto, la mejor práctica de todos modos, sin importar qué servicio esté utilizando). Pero la versión de Whisper absolutamente haría el trabajo por mí; Puedo buscar a través de él para encontrar las secciones que necesito y luego simplemente verificarlas manualmente. En teoría, Stage Whisper debería funcionar exactamente igual, ya que usará el mismo modelo, solo con una GUI envuelta.
Sterne admitió que la tecnología de Apple y Google podría hacer que Stage Whisper quede obsoleto en unos pocos años: la aplicación de grabadora de voz de Pixel ha podido hacer transcripciones sin conexión durante años, y una versión de esa función está comenzando a funcionar. despliegue a algunos otros dispositivos Androidy Apple tiene el dictado fuera de línea incorporado iOS (aunque actualmente no hay una buena manera de transcribir archivos de audio con él). “Pero no podemos esperar tanto”, dijo Sterne. “Los periodistas como nosotros necesitamos buenas aplicaciones de transcripción automática hoy”. Espera tener lista una versión básica de la aplicación basada en Whisper en dos semanas.
Para ser claros, es probable que Whisper no deje totalmente obsoletos los servicios basados en la nube como Otter.ai y Trint, sin importar cuán fácil sea de usar. Por un lado, al modelo de OpenAI le falta una de las características más importantes de los servicios de transcripción tradicionales: poder etiquetar quién dijo qué. Sterne dijo que Stage Whisper probablemente no admitiría esta característica: «no estamos desarrollando nuestro propio modelo de aprendizaje automático».
La nube es solo la computadora de otra persona, lo que probablemente significa que es un poco más rápido
Y mientras obtiene los beneficios del procesamiento local, también obtiene los inconvenientes. La principal es que su computadora portátil es casi con seguridad significativamente menos potente que las computadoras que utiliza un servicio de transcripción profesional. Por ejemplo, introduje el audio de una entrevista de 24 minutos en Whisper, que se ejecuta en mi M1 MacBook Pro; tomó alrededor de 52 minutos transcribir todo el archivo. (Sí, me aseguré de que estuviera usando la versión Apple Silicon de Python en lugar de la de Intel). Otter escupió una transcripción en menos de ocho minutos.
Sin embargo, la tecnología de OpenAI tiene una gran ventaja: el precio. Es casi seguro que los servicios de suscripción basados en la nube le costarán dinero si los usa profesionalmente (Otter tiene un nivel gratuito, pero próximos cambios van a hacer que sea menos útil para las personas que transcriben cosas con frecuencia), y las funciones de transcripción integradas en plataformas como Microsoft Word o el Pixel requieren que pague por software o hardware por separado. Stage Whisper, y Whisper en sí mismo, es gratuito y puede ejecutarse en la computadora que ya tiene.
Nuevamente, OpenAI tiene más esperanzas en Whisper que en ser la base para una aplicación de transcripción segura, y estoy muy entusiasmado con lo que los investigadores terminarán haciendo con él o lo que aprenderán al observar el modelo de aprendizaje automático, que fue entrenado. sobre “680.000 horas de datos supervisados multilingües y multitarea recopilados de la web”. Pero el hecho de que también tenga un uso real y práctico en la actualidad lo hace aún más emocionante.