En el episodio de hoy de What Could Go Wrong: AI Edition, una empresa de tecnología que usa inteligencia artificial para imitar voces está agregando más «salvaguardas» a su tecnología después de que se usó para generar clips de celebridades leyendo contenido ofensivo.
ElevenLabs (se abre en una pestaña nueva) es una empresa de investigación que se especializa en software de voz de IA que genera voces realistas para audiolibros, juegos y artículos de voz en off en cualquier idioma. Una de sus herramientas, llamada Voice Lab, permite a los usuarios «clonar» una voz simplemente cargando un clip de un minuto de ellos hablando. A partir de ahí, puede usar la voz clonada para leer hasta 2500 caracteres usando su función de texto a voz. Sé lo que estás pensando: hay no manera cualquiera podría explotar este sistema subiendo la voz de otra persona, ¿no?
Introduzca 4Can. Los carteles de 4Chan usaron la aplicación para generar clips de sonido de celebridades que decían mensajes racistas, homofóbicos y otros mensajes ofensivos y luego los difundieron en línea. No los vincularé aquí, pero los clips que han estado circulando más ampliamente incluyen a Emma Watson leyendo un extracto de Mein Kampf de Adolf Hitler y Joe Biden anunciando que Estados Unidos enviará tropas a Ucrania.
ElvenLabs dice que ha estado tomando medidas para evitar que Voice Lab se use con «propósitos maliciosos», publicando cómo planea mantener su tecnología fuera de las manos equivocadas en un largo Hilo de Twitter. (se abre en una pestaña nueva)
ElevenLabs afirma que «siempre tuvo la capacidad de rastrear cualquier clip de audio generado hasta un usuario específico». La próxima semana lanzará una herramienta que permitirá a cualquier persona confirmar que se generó un clip usando su tecnología y reportarlo.
La compañía dice que el contenido malicioso fue creado por «cuentas anónimas gratuitas», por lo que agregará una nueva capa de verificación de identidad. Voice Lab estará disponible solo en niveles pagos y eliminará inmediatamente la versión gratuita de su sitio. ElevenLabs actualmente está rastreando y prohibiendo cualquier cuenta que cree contenido dañino en violación de sus políticas.
ElevenLabs admite que poner la tecnología detrás de un muro de pago «no siempre evitará el abuso», pero dice que «hace que los usuarios de VoiceLab sean menos anónimos y los obliga a pensar dos veces antes de compartir contenido inapropiado».
Pero, ¿qué pasa con el problema de las personas que usan voces de celebridades en lugar de las propias? ElevenLabs sugirió que los usuarios lean un mensaje de muestra para entrenar a la IA en su voz en lugar de cargar cualquier archivo de audio antiguo.
Las cuentas gratuitas aún podrán usar la funcionalidad de texto a voz, pero solo con acceso a voces prefabricadas. ElevenLabs dice que continuará monitoreando la situación y que todas las cuentas afectadas recibirán un reembolso.
Justo esta semana, el director ejecutivo de OpenAI dijo que el mal uso de la IA podría ser «una luz apagada para todos nosotros». Pero en serio, ¿qué pensó ElevenLabs que sucedería si le diera a Internet una herramienta que pudiera hacer que cualquier voz dijera algo? Vamos chicos.