Voces clonadas con IA: nueva tecnología para un viejo fraude

Las voces clonadas con IA logran ser réplicas casi perfectas. ¿Pueden estafarte con una llamada?.

“Hemos llegado a tener modelos que respiran”, dice Nieves Ábalos, ingeniera de interfaces conversacionales. No habla de seres vivos, sino de voces clonadas o generadas por inteligencia artificial, y esta es su respuesta cuando le pregunto si para una máquina es posible clonar la personalísima forma de hablar de alguien, más allá de timbres o acentos. 

Al final, la tecnología, el aprendizaje automático, siempre depende de los datos con los que se le alimenta, y lo que hace es reconocer patrones eficazmente. Ábalos nació en Jaén. En su deje andaluz la IA puede reconocer qué eses pronuncia y cuáles no, y en qué contexto. Esos modelos que detectan patrones de respiración puede que no sepan dónde usar las pausas, advierte la ingeniera. Pero luego le ponen por ejemplo un estilo más narrativo, el modelo aprende eso y lo replica después. “La tecnología es muy capaz de hacer estas cosas ahora”, dice Ábalos.  

Este año, el de la IA generativa y ChatGPT, varios medios han recogido casos de delitos mediante llamadas en las que se utilizó IA para clonar la voz. Dos ‘secuestros’ virtuales en Canadá fueron reportados por el Washington Post; la CNN cubrió el terror de una madre en Arizona, y El Comercio ha contado hasta 55 casos de estafas en Perú. La Comisión Federal de Comercio de Estados Unidos (FTC) emitió una alerta en marzo, y constata que los fraudes de suplantación de personas, que siempre han existido, han aumentado en ese país. 

Delitos con voces clonadas con IA

En España no es fácil saber cuántos fraudes usando voces generadas por IA se están produciendo o si están aumentando en el ámbito del idioma español. Newtral.es ha preguntado al Ministerio del Interior y a la Guardia Civil por datos de la cantidad de delitos de suplantación de voz en España, pero ninguno cuenta con este tipo de estadística. 

“No hay datos porque, o no se denuncia este tipo de ataques, o las voces clonadas con IA forman parte de una estrategia muy elaborada que persigue una finalidad más concreta”, explica Josep Albors, responsable de investigación y concienciación de ESET España. Según el experto, ha habido engaños a directivos de entidades bancarias en Oriente Medio donde han conseguido que transfieran millones a cuentas controladas por delincuentes, pero falta información que muchas veces se pierde en la literatura de elaboración de la noticia. 

Una serie de noticias sobre estafas en las que se usaban voces clonadas ya venían apareciendo en medios, desde 2018, sobre casos ocurridos en China y Europa. Las fuerzas de seguridad y expertos en IA advertían entonces que la generación de voces con IA para cometer fraudes podía ser un problema en un futuro. También que había una rara oportunidad de desarrollar tecnología forense para detectarlas antes de que se generalizara el problema, como observaba Siwei Lyu, del laboratorio de aprendizaje automático de SUNY Albany, en una newsletter de Axios sobre el tema. 

Viejas estafas con nueva tecnología

Algunas voces clonadas con IA se combinan con deepfakes de imagen, como el del falso Zelenski anunciando la rendición en las primeras semanas de la guerra de Ucrania. Aun así, este deepfake fue desmontado rápidamente. Crear este tipo de materiales con cierta calidad lleva tiempo, experiencia y recursos, y pocos tienen las condiciones para lograr productos sofisticados. Varios meses después, cinco alcaldes europeos engañados por un falso regidor de Kiev en videoconferencia (José Luis Martínez-Almeida, el de Madrid, entre ellos) dijeron haber sido estafados por deepfakes, aunque aparentemente el truco había funcionado sin usar voces ni imagen con IA, sino con una imagen fija y un imitador de voz humano. 

Albors señala que las voces clonadas con IA aún son fáciles de distinguir en ataques dirigidos a usuarios más o menos importantes, empresas u organismos oficiales y en labores de propaganda, como vimos en el contexto de Ucrania, pero que irán mejorando. 

Los fraudes de suplantación de personas son variados, pero siempre han funcionado de la misma manera: un impostor que suplanta a alguien en el que confiamos (un hijo, un jefe, un amigo) y convence a la víctima de enviarle dinero porque está en un apuro. Ahora, a los nervios y el miedo actuando en contra, se suma la tecnología de las voces creadas artificialmente, que pueden ser muy difíciles de detectar, más en estas condiciones de presión emocional. 

Un estudio de la University College London encontró que los seres humanos podemos detectar voces sintéticas, o generadas con IA, solo el 73% de las veces y el número apenas mejora con entrenamiento para reconocerlas. “La tecnología ha avanzado mucho, pero para algunos delitos está empezando”, dice Albors. “Pero aunque estés entrenado, llegará un punto en el que será imposible para nuestro oído distinguir una voz generada artificialmente de una real”, advierte.

¿Cómo se crea una voz? Las voces generadas por IA, también llamadas voces sintéticas o deepfakes de voz, en realidad no surgen de la nada, sino que son producidas por un modelo de aprendizaje profundo que es alimentado con horas de audio de voces reales de varias personas. De esa mezcla de voces, el sistema aprende y puede generar una voz con una identidad nueva, que no identifica a ninguna de las voces de las cuales ha aprendido.

Cuántos minutos se necesitan para clonar una voz

Un periodista de VICE logró hackear el sistema biométrico de voz de un banco británico utilizando una réplica digital de su voz para entrar en la cuenta. La creó él mismo con un sintetizador de voz gratuito disponible en línea de ElevenLabs, una startup de 20 empleados fundada el año pasado que desarrolla software de clonación y síntesis de voz con IA. Actualmente tienen más de un millón de usuarios entre personas individuales y empresas, según dicen a Newtral.es.

ElevenLabs saltó a los titulares cuando miembros de 4chan usaron su herramienta para producir audios en los que las voces clonadas de famosos como Emma Watson, Ben Shapiro o Joe Rogan pronunciaban textos racistas, nazis y homófobos, que nunca habían dicho. 

El escándalo, a las puertas de una ronda de inversión, obligó a la compañía a anunciar algunas medidas para prevenir el uso malintencionado: limitar el servicio de clonación a usuarios de pago, lanzar un detector de voces sintéticas creadas por la compañía, el bloqueo de ciertos usuarios, y un “captcha de voz”, una verificación que hacen en tiempo real con los usuarios que suben un audio para garantizar que es su propia voz la que están clonando. 

El sintetizador de ElevenLabs solo necesita un minuto de audio de una voz limpia de la que se tengan los derechos, sin ruidos de fondo, para generar una voz clonada de forma gratuita en pocos segundos. No podemos esperar una réplica perfecta. La compañía promete que puede hacerlo, con un 99% de precisión y cualquier acento, pero para eso se necesita esperar al menos 4 semanas -debido a la lista de espera- y es necesario pagar una suscripción de al menos 22 dólares al mes (*).

¿Realmente es tan fácil clonar la voz de alguien? Depende de la tecnología y la cantidad de datos. 

Entre modelos enormes de datos y procesos más personalizados

ElevenLabs trabaja con modelos de difusión, modelos de IA que han sido entrenados con una ingente cantidad de voces de origen desconocido. Esto le permite, en cuestión de un segundo, “inventar” una voz final muy parecida con pocos segundos de un audio de muestra. Como le falta información, para poder obtener voces clonadas está inventando otras partes. “Eso hace que si oyes tu voz clonada de esta forma puedas pensar que se parece mucho a ti, pero notas que hay algo que no es tuyo, quizás la prosodia, la entonación o algún detalle”, relata Ábalos. Desde ElevenLabs evitan dar detalles sobre el entrenamiento y origen de sus modelos, pero dicen a Newtral.es que “parte de su secreto” es que sus algoritmos analizan el texto antes de ponerle voz, para poder decidir dónde poner énfasis, qué estilo darle o a qué velocidad hablar. Niegan que por el momento se utilice el audio que se sube a la plataforma para reentrenar sus modelos, aunque no descartan hacerlo en el futuro, avisando a los usuarios. 

No todos los sistemas que consiguen voces clonadas como réplicas casi perfectas funcionan con un enorme modelo entrenado con miles de datos de audio. En España, Monoceros Labs utiliza tecnología propia desarrollada tras años estudiando qué se hacía en el estado del arte y aplicándolo al idioma español. A diferencia de los modelos de difusión de ElevenLabs, usan un tipo de arquitectura técnica diferente, con Transformers y redes generativas adversarias (GAN), que requieren menos datos para entrenarse, y menos variedad. 

En este modelo, que es privado, se aseguran de no introducir datos de otras personas, sino solo los de los clientes que hayan dado consentimiento para que sus voces sean clonadas. Por esto necesitan más horas o días de grabación para generar réplicas casi perfectas de voz. “Aun así, con 40 minutos de grabación en estudio, sin ruidos, puedes tener una voz (clonada) en la que te oyes y no te distingues”, dice Ábalos. 

Monoceros Labs también tiene un sintetizador texto-a-voz, pero no está abierto al público. “No queremos que cualquiera pueda utilizar ciertas herramientas para usar la voz de otros”, dice Ábalos. El proceso de la clonación lo hacen ellos, comunicándose con el cliente y así garantizan la supervisión y revisión del modelo. “A la hora de crear una voz sintética es muy importante saber para qué se va a usar”, dice Ábalos. Han tenido que decir que no a ciertos pedidos de voces clonadas, por falta de permisos. 

Fuente: newtral.es. Publicado en el 2023