Open AI retira la voz artificial Sky. ¿La compañía realmente utilizó la voz de Scarlett Johansson para esto?


Un episodio sobre una nueva voz de Chat-GPT muestra cómo les gusta operar a las empresas tecnológicas de Silicon Valley: en lugar de pedir permiso, prefieren pedir perdón después. De hecho, sería fácil cambiar artificialmente una voz para que ya no pueda ser identificada.

Voz solicitada: Scarlett Johansson en el Festival de Cannes, 23 de mayo de 2023.

Gareth Cattermole/Getty

Un hombre se enamora de una IA: ese es el extraño argumento de la película “Her”: un hombre tímido retrasa su divorcio. Por miedo a la soledad. Por eso compra un nuevo sistema operativo para su computadora. Tan pronto como se instala, el software le habla.

Al principio las conversaciones son incómodas. Pero entonces Samantha, como se llama a sí mismo el sistema, se vuelve cada vez más inteligente. Las conversaciones se vuelven más profundas, primero de forma amistosa, pero pronto también de forma íntima. Esa era una película de ciencia ficción de 2013. Pero ahora la ficción se ha hecho realidad. Como Open AI la semana pasada lanzó su nuevo modelo de lenguaje Chat-GPT 4.o, no podías evitar pensar en «Ella».

Porque el nuevo modelo se comunica de forma similar a la gente, ríe, provoca e incluso comprende el sarcasmo. En el lanzamiento, el director ejecutivo de Open AI, Sam Altman, publicó el título de la película. en X: “Aquí” sin comentarios. Antes de eso había asistido a una conferencia dichodijo que le gustó la película y la describió como “profética” sobre la forma en que los humanos interactuarían con la IA en el futuro.

El lunes se supo que existe otro paralelo entre “Ella” y Chat-GPT 4.o: la voz. Scarlett Johannsson, la actriz que dio voz a Samantha, se reconoció en las demostraciones de Chat-GPT. «Me sorprendió, me enojé y no podía creer que el señor Altman usara una voz tan similar a la mía que mis amigos cercanos y figuras de los medios no podían notar la diferencia», escribió Johansson en un publicación de instagramque publicó en el perfil de un periodista estadounidense.

¿Scarlett Johansson fue excluida intencionalmente?

Altman se puso en contacto con Johannson el otoño pasado para preguntarle si estaba de acuerdo con el uso de su voz. Le dijo que su voz “cerraría la brecha entre las empresas de tecnología y la escena creativa”, “tranquilizaría” a los usuarios y los ayudaría a lidiar mejor con el “cambio sísmico” en la relación entre los humanos y la inteligencia artificial.

Sin embargo, Johansson se negó a compartir su voz con AI después de “una cuidadosa consideración y por razones personales”. Se sorprendió aún más cuando la voz llamada “Sky” en Chat-GPT sonaba como ella. Sobre todo porque Sam Altman volvió a ponerse en contacto con ellos dos días antes del lanzamiento del nuevo modelo lingüístico para pedirles que reconsideraran su oferta. «Antes de que pudiéramos intercambiar ideas, el sistema ya estaba disponible», escribe Johansson.

La voz es parte de nuestra identidad.

Al parecer, Johansson y su familia reconocieron su voz de inmediato. No sería sorprendente. Nuestra propia voz es parte de nuestra identidad. No sólo reconocemos a las personas que conocemos por su voz. Leemos en la voz cómo una persona está «sintonizada». ¿Alguien está nervioso, emocionado, asustado? Cuanto mejor conozcamos la voz de una persona, más probabilidades tendremos de reconocer su estado emocional.

“Sin embargo, el sonido de una voz se puede cambiar. Esto es lo que oímos cuando los imitadores imitan a una persona destacada”, afirma Jörg Bohlender. El médico se especializa en trastornos del habla y de la voz y trabaja en el departamento de foniatría y logopedia clínica del Hospital Universitario de Zúrich. La única vez que escuchas la voz en su forma original es cuando ríes y lloras, dice. Sólo podríamos cambiar un poco cómo suena a voluntad.

El sonido se origina en las cuerdas vocales.

Básicamente, el sonido de la voz humana surge de las llamadas cuerdas vocales entre la tráquea y la garganta. Cuando expulsamos el aire de los pulmones a través de las dos bandas de tejido conectivo, las cuerdas vocales comienzan a vibrar y se crean ondas sonoras.

Cuanto más rápido fluye el aire a través de las cuerdas vocales, más fuerte será el sonido. Y cuanto más tensamos las cuerdas vocales, más alto será el tono. La profundidad con la que podemos hablar está determinada por la anatomía. Los hombres tienen cuerdas vocales más largas que las mujeres.

La voz se caracteriza por los matices, pero no sólo

La voz se individualiza a medida que el sonido viaja por la garganta, las cavidades nasales y la boca. Porque, por un lado, podemos formar vocales allí. Por otro lado, los sonidos adquieren allí su timbre característico. Una voz puede sonar cálida, metálica, nasal o pegada a nuestros oídos.

El llamado timbre se puede medir y definir matemáticamente analizando las frecuencias sonoras más altas, los llamados sobretonos. El análisis de Fourier necesario para ello es un proceso que se remonta a antes del desarrollo de la inteligencia artificial.

La IA puede imitar cualquier voz

Sin embargo, la identidad de una voz no siempre puede derivarse de un análisis de Fourier. Porque los hablantes capacitados pueden cambiar el llamado espectro de armónicos de su voz. Aunque una persona no puede cambiar el tamaño de sus cavidades nasales, puede modificar la forma de la cámara de resonancia utilizando partes móviles como el paladar blando.

El espectro sonoro de una voz también se puede modificar digitalmente mediante procesos técnicos conocidos. Es aún más sorprendente que Open AI no se haya molestado en realizar tal cambio. También es posible que la voz de Johansson se distinga especialmente por otras características.

«Al parecer, la voz de Scarlett Johanson debe tener un alto nivel de reconocimiento», afirma el doctor Bohlender. Varios factores adicionales podrían influir. Por ejemplo, además del timbre de una voz, la articulación de las consonantes puede ser única. Se forman utilizando la lengua, los dientes y el paladar. Y, por último, la forma en que alguien acentúa sílabas individuales en una oración o inserta pausas es muy individual.

Típico Silicon Valley: ¿simplemente lo haces?

Mientras tanto, Open AI ha retirado el voto de Sky y en uno Entrada de blog explica cómo surgió: “Sky no es una imitación de Scarlett Johansson, sino que pertenece a otra actriz”, dice. «Para proteger su privacidad, no podemos compartir los nombres de nuestros locutores», continúa Open AI.

Para Martin Steiger, abogado y especialista en derecho en el espacio digital, el enfoque de Open AI es típico de las grandes empresas de Silicon Valley: «Simplemente lo haces y esperas salirte con la tuya», dice Steiger. «Las empresas sólo volverán cuando alguien se defienda eficazmente».

Sin embargo, aún no está claro si realmente habría sido necesario desconectar la voz de Sky. Si resulta que Open AI ha encontrado una actriz que realmente suena como Scarlett Johansson, en principio está permitido que su voz se utilice en una plataforma como Chat-GPT, siempre que ella haya dado su consentimiento.

Sin embargo, varios hechos hablan en contra de esta afirmación: en primer lugar, Altman ya no habría tenido que ponerse en contacto con Johansson dos días antes del lanzamiento, pues tendría la ley de su lado; En segundo lugar, es posible, pero improbable, que la doble de Scarlett Johansson nunca hiciera una aparición pública. «Sin duda, sería una invitada bienvenida en los programas de entrevistas», afirma Steiger. Dado que es actriz según Open AI, debería ser conocida por el público.

La IA abierta podría refutar tales suposiciones haciendo que la empresa haga pública con qué voz o voces se entrenó la voz de Sky. Sin embargo, ahora que Sky ya no es accesible, los análisis acústicos ya no pueden proporcionar ninguna información sobre qué tan similares suenan Sky y Scarlett Johansson.



Source link-58