Alerta máxima ante la cesión de voz para aprendizaje neuronal de la IA, según UVA

Blog Noticias 23 de julio de 2024

Alerta máxima ante la cesión de voz para aprendizaje neuronal de la IA, según UVA

Esta semana, tras una primera entrega, continuamos desgranando las instrucciones emitidas por los profesionales de la voz integrados en United Voice Artist (UVA) acerca del buen uso de la inteligencia artificial (IA) en el mundo de la voz profesional.

Un documento, consultado por el blog de la Escuela de Doblaje de Madrid (EDM), que ha sido avanzado por las asociaciones de locutores de habla alemana, integradas en la trasnacional UVA, surgida precisamente para luchar contra el uso incontrolado de la IA en el ámbito de la voz; y que entre otras engloba al madrileño sindicato de doblaje Adoma, al catalán DUB, el gallego ADA, el valenciano AAPV, los vascos Bieuse y Ehbe, el andaluz Arda y el balear Cadib.

En este documento, de doce páginas, los locutores advierten de que “solo los humanos son capaces de expresar sentimientos en palabras y establecer una conexión con el público y los oyentes”.

A pesar de ello, las asociaciones constatan el “avance imparable” de la IA, y trazan una serie de recomendaciones para tratar de convivir con la novedosa técnica.

Básicamente, tal como adelantamos en nuestra anterior entrega, la coalición de agrupaciones profesionales reclaman un consentimiento explícito de los locutores que presten su voz para estos sistemas. Y piden asegurar la trazabilidad de las muestras utilizadas para crear las síntesis digitales, así como una retribución justa de una técnica que debe utilizare más bien como “complemento” y no como “sustituto” de la interpretación humana, según consideran.

Destructivo aprendizaje neuronal

Los miembros de UVA alertan especialmente contra una técnica, denominada “aprendizaje neuronal”, a través de la cual Open AI —la matriz de Chat GTP— y otros grandes del sector, como Microsoft, Google o Eleven Labs, entrenan a sus asistentes de voz, succionando la “identidad vocal” de un locutor, sin que luego los cambios puedan ser deshechos, y muchas veces, ni siquiera rastreados.

“Los gremios desaconsejan a todos los locutores participar en el ‘aprendizaje neuronal’ y no emiten tarifas para ello. El valor sería inmensamente alto y debería situarse al menos en el rango de seis cifras”, concluyen, sugiriendo así elevadas sumas en caso de que se cedan derechos para tal fin.

Estos sistemas captan a través de grabaciones la “identidad vocal” de un locutor, generando luego una salida de voz que copia las rasgos más personales de su interpretaciones, en aspectos como el ritmo, la entonación, personalidad, humor, encanto,o melodía del habla, entre otros.

“El locutor pone así a disposición toda su experiencia profesional y unicidad económica. Por tanto, el aprendizaje neuronal puede representar un daño económico total para el locutor”, avisan.

“Esto constituye la base para el desarrollo continuo de los sistemas neuronales de IA que generan voces, y por tanto tiene un gran valor”, continúan.

“Muchos contratantes no son plenamente conscientes de cómo y dónde se procesan los datos de entrenamiento que alimentan en sus sistemas”, añaden, tras insistir en el “daño económico total” que acarrear el prestar la voz para entrenar a estos sistemas basados en el aprendizaje neuronal.

“El sistema obtiene un aprendizaje con cada entrada, el cual nunca puede ser revertido, incluso si los datos de entrenamiento originales son eliminados”, concluyen.

IA como complemento

Además de esta advertencia el documento detalla otros aspectos relativos a la segura convivencia entre los profesionales de la voz y los sistemas de voz sintética. Piden en primer lugar que los proyectos combinen ambos sistemas, asegurando un número mínimo de intervenciones humanas.

Reclaman además una doble tarifa, que cubra por un lado el proceso de síntesis de voz, y, por otro, el uso concreto de la misma; con tarifas de entre 1.000 y 1.500 euros en el caso de la creación de demos destinadas a promocionar la voz sintética de un locutor —que ascenderían a una horquilla entre 5.000 y 7.500 euros, cuando se requieran varias jornadas de grabación—, según detallan estas organizaciones de habla alemana.

Derechos sobre la copia digital

El locutor posee los derechos de autor y propiedad intelectual sobre la copia digital, destacan las asociaciones integradas en UVA.

El locutor conserva “todos sus derechos” sobre esta voz de síntesis, y debe ser compensado según sea el alcance del duplicado digital, afirman.

Una compensación que siempre dependerá del alcance de la explotación — tanto en el espacio, como en el tiempo —, como del público objetivo, observan.

“Nunca deben acordarse derechos de uso totalmente ilimitados para la utilización de la réplica digital de la voz”, aconsejan.

Por último el locutor debe tener la potestad de rechazar una mala copia digital de su voz, siempre que considere que esta copia provoca un daño en su reputación profesional, afirman.

Tiempo para leer el contrato

Los representantes de los locutores recomiendan encarecidamente a sus asociados y compañeros que lean los contratos con celo. Y que reclamen cualquier aclaración necesaria a la hora de arrojar luz sobre su contenido.

“Se debe dar tiempo al locutor para que revise el contrato con un abogado de su elección”, sugieren.

“La práctica común en las industrias de doblaje y juegos, donde los locutores firman sus contratos justo antes o después de la sesión de grabación en el estudio, ya no es viable en el contexto de la IA”, avisan.

“La revisión legal y la asesoría sobre contratos de locución son esenciales en la actualidad, y los costos asociados deben ser asumidos por el cliente”, finaliza el documento.

Imagen: Cameron Butler