Las herramientas que permiten imitar sintéticamente las voces de actores o personajes públicos en otros idiomas pueden vulnerar o no derechos  de propiedad intelectual, en función de su uso.

La popularización de plataformas de IA para generación de vídeo como HeyGen o Rask ha puesto de manifiesto las capacidades de la IA generativa, en este caso, mediante herramientas de traducción automática que nos permite hablar de “doblaje” inteligente. Tras el lanzamiento comercial de estas herramientas, en parte gratuitas, las redes no han tardado en llenarse de videos de personajes famosos hablando perfecto inglés (futbolistas, cantantes de copla, presentadores de televisión, personajes de la prensa del corazón…) casi siempre, con un toque humorístico. Veamos cuáles son las implicaciones legales de esta tecnología.

Una herramienta que aumenta las capacidades de los actores (pero puede afectar a los actores de doblaje…)

Estos modelos permiten transcribir el mensaje original, traducirlo a otro idioma y, lo más novedoso, clonar la voz de un humano, normalmente una figura famosa, para insertarla en el video original y crear la ilusión de que se grabó originalmente en el idioma de destino. Para perfeccionar este “doblaje” sintético, las herramientas permiten ajustar el movimiento de los labios para ajustarlo al mensaje ya doblado.

Ahora bien, ¿podemos hablar de doblaje? Sí, pero a un nuevo nivel. En el doblaje tradicional los actores de doblaje emplean su propia voz y reproducen el texto traducido intentando ajustarse a los movimientos de labios del actor y añadiendo su talento interpretativo. Con la IA generativa, la voz del actor se imita sintéticamente y se modifica la grabación original. Las implicaciones legales son diversas, tanto en lo que respecta al entrenamiento de estos sistemas de doblaje generativo como en relación con los usos que pueden darse a los resultados obtenidos.

El proceso de aprendizaje: “Habla como…” 

Si la IA ha sido entrenada correctamente, habrá aprendido a hablar como el actor cuya voz debe imitar y traducir, detectando cuáles son los rasgos que caracterizan su voz y, por ejemplo, sus patrones de entonación. Pero para aprender, necesita información, principalmente, videos y/o audios del actor que está doblando. Son muchos los derechos (y excepciones) que están en juego.

En materia de entrenamiento, desde la perspectiva de la propiedad intelectual los vídeos que se usan como material de entrenamiento estarían cubiertos, en principio, por las excepciones de minería de datos previstas en la Directiva del Mercado Único Digital 2019/790 (DMUD), a menos que el titular del contenido haya realizado una reserva expresa de derechos, un opt-out (lo hemos analizado antes aquí).

Ahora bien, las dudas legales surgen en relación con el uso de la imagen de los actores. La cuestión es especialmente compleja si tenemos en cuenta que en España el derecho a la propia imagen es un derecho fundamental que abarca todos los rasgos físicos recognoscibles, incluyendo la apariencia física, el nombre y la voz. La Ley Orgánica 1/1982 de protección civil del derecho al honor, a la intimidad personal y familiar y a la propia imagen (LO 1/1982) no prevé excepciones que justifiquen el data mining no autorizado, lógico, si tenemos en cuenta que se aprobó hace más de cuarenta años. El vacío legal plantea incertidumbres sobre la licitud del entrenamiento basado en imágenes de personas físicas.

Aquí, solo dos vías pueden hacer que el entrenamiento sea lícito: obtener el consentimiento o ampararse en una excepción legal. Si el uso es consentido, el entrenamiento no presenta mayores problemas légales, aunque sí éticos, especialmente cuando el entrenamiento se produce sobre la imagen de personas ya fallecidas que no pueden decidir por sí mismas. La cuestión ya empezó a discutirse con la campaña publicitaria protagonizada sintéticamente por Lola Flores para una conocida cervecera, autorizada por sus herederos (lo analizamos aquí). Si no hay consentimiento y el entrenamiento se basa en imágenes extraídas, por ejemplo, de vídeos alojados en Internet, cabría acudir a las excepciones previstas en la norma para los usos en los que predomina un interés histórico, científico o cultural relevante.

El resultado: doblaje sintético

En el otro lado de la ecuación tenemos el output: el vídeo resultante en el que se ha manipulado tanto el vídeo como el audio para crear un contenido audiovisual nuevo que, además, ha replicado de forma sintética la voz del actor o actriz permitiéndole expresarse en un nuevo idioma que no conoce.

En materia de propiedad intelectual la excepción de minería de datos ya no nos sirve, puesto que no hablamos de datos para el aprendizaje, sino de contenido nuevo. De forma más precisa, se trata de la creación de una obra derivada para su posterior reproducción, distribución y/o comunicación pública. Nuevamente, el uso lícito exige o el consentimiento de los titulares de derechos o la existencia de una excepción. En materia de excepciones, cabe acudir a los límites previstos en la DMUD e incorporados al marco normativo de la propiedad intelectual a través del Real Decreto Ley 24/2021 de 2 de noviembre. Por ejemplo, cuando hablamos de contenido generado por los usuarios y con la finalidad de garantizar la libertad de expresión, se permite el uso no autorizado con fines de cita, críticas, reseñas, así como los usos a efectos de caricatura, parodia o pastiche. Muchos de los vídeos que pueblan las redes podrían estar cubiertos por la excepción de parodia y pastiche. No obstante, a falta de animus iocandi, la aplicación del límite del pastiche, dada la ausencia de jurisprudencia relevante, genera dudas sobre su aplicación al doblaje sintético. ¿Por qué? Porque las técnicas de lip sync (sincronía de labios) en las que la transformación se limita a sustituir la voz pueden no cumplir con el grado de diferencia con la obra original que exige la excepción del pastiche. A ello se une la dificultad de evitar la confusión con la obra original o la obligación de no causar daños a la misma, requisitos igualmente exigibles en materia de pastiche. La sentencia del Tribunal de Justicia de la Unión Europea en el asunto C-201/2013 (Caso Deckmyn) nos recuerda lo complejo que puede ser el equilibrio entre las libertades de expresión y los derechos morales de los autores de las obras utilizadas sin consentimiento que, en este caso, querían evitar que su obra se viese asociada con mensajes que podrían considerarse racistas.

En lo relativo a los derechos de imagen también debe acudirse a la existencia de consentimiento expreso o al amparo en una excepción. Ahora bien, el catálogo de excepciones expresas previsto en la LO 1/1982 es más reducido que en materia de propiedad intelectual. Así, aunque la norma recoge una excepción en materia de parodia, no sucede lo mismo con el pastiche. En todo caso, el punto de partida en relación con la parodia es muy favorable al uso de esta tecnología con fines humorísticos, ya que nuestros tribunales vienen interpretando esta excepción de forma muy amplia. A modo de ejemplo, podemos citar la sentencia del Tribunal Supremo núm. 92/2009, de 17 de febrero, en la que se justifica el uso no autorizado de las imágenes de un inspector de policía durante una rueda de prensa y se sustituyen sus declaraciones por un doblaje de contenido humorístico. Entiende la Sala que “la parodia realizada está dentro de los usos sociales comunes en el medio televisivo y no causa especial escándalo u ofensa al espectador medio”.

Conclusión

La viralización de vídeos doblados sintéticamente de figuras como El Fary o Paquita Salas hablando en inglés han servido para llevar al gran público los dilemas legales y éticos que plantean los nuevos sistemas de IA generativa. No estamos tratando con tecnologías lícitas o ilícitas, sino con herramientas que, según su uso, pueden o no vulnerar derechos de terceros. En este caso nos hemos centrado en la propiedad intelectual y los derechos de imagen, pero el tema no se agota aquí. Lo que está en juego son las implicaciones de utilizar IA generativa para aumentar las capacidades de los actores “reales”, como hablar en decenas de idiomas distintos, que no conocen. Sin embargo, el temor a que esta tecnología acabe afectando a los actores o actrices “reales” plantea cuestiones más profundas que afectan a nuestra condición humana y que, sin duda, seguirán siendo objeto de debate en un futuro cada vez menos lejano.

Cristina Mesa

Departamento de Propiedad Industrial e Intelectual