Google Docs está recibiendo una gran actualización que pronto podría hacer que su función de escritura por voz sea mucho más útil y popular para transcribir reuniones.
El procesador de textos en la nube ha ofrecido la capacidad de «escribir» con manos libres con su voz desde hace varios años (simplemente vaya a Herramientas > Dictado por voz, con el micrófono encendido). Pero una actualización que llegará a principios de febrero verá algunas mejoras en la función, además de la opción de usarla en navegadores web más allá de Chrome.
Google dice que la actualización «ayudará a reducir los errores de transcripción y minimizará la pérdida de audio durante la transcripción». Las limitaciones de la encarnación actual han hecho que pierda terreno frente a las mejores aplicaciones de voz a texto como Otter.ai, que es ampliamente utilizada por el equipo de TechRadar. Las herramientas de reconocimiento de voz y accesibilidad de Microsoft también han dado un gran salto recientemente en aplicaciones como Word.
Pero si el equivalente incorporado de Google Docs puede igualar la precisión de sus rivales cada vez más impresionantes, podría convertirse en una herramienta mucho más utilizada. Particularmente porque también funcionará en Google Slides para mostrar las palabras de un orador en tiempo real.
La función también debería seguir mejorando gracias a otra actualización; soporte ampliado para «la mayoría de los principales navegadores». Google aún no ha dicho qué navegadores, pero es seguro decir que Safari, Firefox y Microsoft Edge podrían incluirse.
Es probable que lo averigüemos cuando la actualización comience a implementarse durante el próximo mes. Los usuarios de Google Workspace que están suscritos a las actualizaciones de lanzamiento rápido comenzarán a verlo llegar a partir de hoy, pero la mayoría de nosotros verá un lanzamiento gradual durante dos semanas a partir del 6 de febrero.
Análisis: la IA aprende a ser útil
Google no ha sido explícito sobre qué tecnología está impulsando su actualización de escritura por voz en Google Docs, pero es probable que sea similar a la interfaz basada en IA si se ofrece a las empresas para mejorar servicios como las interacciones con los clientes.
La tecnología de IA ha estado mejorando rápidamente en el espacio visual con Dall-E y Midjourney, junto con chatbots como ChatGPT. El reconocimiento de escritura a mano también ha recibido un gran impulso. Pero podría decirse que el habla es una de las áreas más útiles para el desarrollo de IA, tanto para la usabilidad como para la accesibilidad. Y el software confiable de voz a texto es solo el comienzo.
Microsoft presentó recientemente una nueva tecnología de inteligencia artificial espeluznante, pero potencialmente útil, llamada Vall-E que puede imitar voces humanas (se abre en una pestaña nueva) basado en sólo una muestra de tres segundos. Con un tema similar, Apple lanzó recientemente su primera gama de audiolibros con narradores impulsados por IA (arriba).
Estos avances plantean enormes cuestiones éticas en torno a la posibilidad de suplantaciones de identidad, razón por la cual la tecnología detrás de ambos actualmente está bloqueada y no está disponible para los consumidores. Pero la caja de Pandora de la tecnología basada en la voz se ha abierto de manera espectacular.
Por ahora, las rápidas mejoras en la tecnología de voz a texto que se encuentran en Google Docs (y, de hecho, el mejor software de texto a voz) son los frutos más útiles de estos nuevos algoritmos de IA. Mientras ese software toma nuestras notas de la reunión, estaremos agarrando las palomitas de maíz para los inevitables debates éticos sobre los imitadores de voz de próxima generación.