Cómo con IA te clonan las voces para fraudes financieros

“Hemos llegado a tener modelos que respiran”, dice Nieves Ábalos, ingeniera de interfaces conversacionales. No habla de seres vivos, sino de voces clonadas o generadas por inteligencia artificial, y esta es su respuesta cuando le pregunto si para una máquina es posible clonar la personalísima forma de hablar de alguien, más allá de timbres o acentos. 

newtrales

Al final, la tecnología, el aprendizaje automático, siempre depende de los datos con los que se le alimenta, y lo que hace es reconocer patrones eficazmente. Ábalos nació en Jaén. En su deje andaluz la IA puede reconocer qué eses pronuncia y cuáles no, y en qué contexto. Esos modelos que detectan patrones de respiración puede que no sepan dónde usar las pausas, advierte la ingeniera. Pero luego le ponen por ejemplo un estilo más narrativo, el modelo aprende eso y lo replica después. “La tecnología es muy capaz de hacer estas cosas ahora”, dice Ábalos.  

Este año, el de la IA generativa y ChatGPT, varios medios han recogido casos de delitos mediante llamadas en las que se utilizó IA para clonar la voz. Dos ‘secuestros’ virtuales en Canadá fueron reportados por el Washington Post; la CNN cubrió el terror de una madre en Arizona, y El Comercio ha contado hasta 55 casos de estafas en Perú. La Comisión Federal de Comercio de Estados Unidos (FTC) emitió una alerta en marzo, y constata que los fraudes de suplantación de personas, que siempre han existido, han aumentado en ese país. 

Delitos con voces clonadas con IA

En España no es fácil saber cuántos fraudes usando voces generadas por IA se están produciendo o si están aumentando en el ámbito del idioma español. Newtral.es ha preguntado al Ministerio del Interior y a la Guardia Civil por datos de la cantidad de delitos de suplantación de voz en España, pero ninguno cuenta con este tipo de estadística. 

“No hay datos porque, o no se denuncia este tipo de ataques, o las voces clonadas con IA forman parte de una estrategia muy elaborada que persigue una finalidad más concreta”, explica Josep Albors, responsable de investigación y concienciación de ESET España. Según el experto, ha habido engaños a directivos de entidades bancarias en Oriente Medio donde han conseguido que transfieran millones a cuentas controladas por delincuentes, pero falta información que muchas veces se pierde en la literatura de elaboración de la noticia. 

Una serie de noticias sobre estafas en las que se usaban voces clonadas ya venían apareciendo en medios, desde 2018, sobre casos ocurridos en China y Europa. Las fuerzas de seguridad y expertos en IA advertían entonces que la generación de voces con IA para cometer fraudes podía ser un problema en un futuro. También que había una rara oportunidad de desarrollar tecnología forense para detectarlas antes de que se generalizara el problema, como observaba Siwei Lyu, del laboratorio de aprendizaje automático de SUNY Albany, en una newsletter de Axios sobre el tema. 

Viejas estafas con nueva tecnología

Algunas voces clonadas con IA se combinan con deepfakes de imagen, como el del falso Zelenski anunciando la rendición en las primeras semanas de la guerra de Ucrania. Aun así, este deepfake fue desmontado rápidamente. Crear este tipo de materiales con cierta calidad lleva tiempo, experiencia y recursos, y pocos tienen las condiciones para lograr productos sofisticados. Varios meses después, cinco alcaldes europeos engañados por un falso regidor de Kiev en videoconferencia (José Luis Martínez-Almeida, el de Madrid, entre ellos) dijeron haber sido estafados por deepfakes, aunque aparentemente el truco había funcionado sin usar voces ni imagen con IA, sino con una imagen fija y un imitador de voz humano. 

Albors señala que las voces clonadas con IA aún son fáciles de distinguir en ataques dirigidos a usuarios más o menos importantes, empresas u organismos oficiales y en labores de propaganda, como vimos en el contexto de Ucrania, pero que irán mejorando. 

Los fraudes de suplantación de personas son variados, pero siempre han funcionado de la misma manera: un impostor que suplanta a alguien en el que confiamos (un hijo, un jefe, un amigo) y convence a la víctima de enviarle dinero porque está en un apuro. Ahora, a los nervios y el miedo actuando en contra, se suma la tecnología de las voces creadas artificialmente, que pueden ser muy difíciles de detectar, más en estas condiciones de presión emocional

Un estudio de la University College London encontró que los seres humanos podemos detectar voces sintéticas, o generadas con IA, solo el 73% de las veces y el número apenas mejora con entrenamiento para reconocerlas. “La tecnología ha avanzado mucho, pero para algunos delitos está empezando”, dice Albors. “Pero aunque estés entrenado, llegará un punto en el que será imposible para nuestro oído distinguir una voz generada artificialmente de una real”, advierte.

¿Cómo se crea una voz? Las voces generadas por IA, también llamadas voces sintéticas o deepfakes de voz, en realidad no surgen de la nada, sino que son producidas por un modelo de aprendizaje profundo que es alimentado con horas de audio de voces reales de varias personas. De esa mezcla de voces, el sistema aprende y puede generar una voz con una identidad nueva, que no identifica a ninguna de las voces de las cuales ha aprendido.

Cuántos minutos se necesitan para clonar una voz

Un periodista de VICE logró hackear el sistema biométrico de voz de un banco británico utilizando una réplica digital de su voz para entrar en la cuenta. La creó él mismo con un sintetizador de voz gratuito disponible en línea de ElevenLabs, una startup de 20 empleados fundada el año pasado que desarrolla software de clonación y síntesis de voz con IA. Actualmente tienen más de un millón de usuarios entre personas individuales y empresas, según dicen a Newtral.es.

El escándalo, a las puertas de una ronda de inversión, obligó a la compañía a anunciar algunas medidas para prevenir el uso malintencionado: limitar el servicio de clonación a usuarios de pago, lanzar un detector de voces sintéticas creadas por la compañía, el bloqueo de ciertos usuarios, y un “captcha de voz”, una verificación que hacen en tiempo real con los usuarios que suben un audio para garantizar que es su propia voz la que están clonando. 

El sintetizador de ElevenLabs solo necesita un minuto de audio de una voz limpia de la que se tengan los derechos, sin ruidos de fondo, para generar una voz clonada de forma gratuita en pocos segundos. No podemos esperar una réplica perfecta. La compañía promete que puede hacerlo, con un 99% de precisión y cualquier acento, pero para eso necesita reentrenarla mensualmente y es necesario pagar una suscripción de al menos 22 dólares al mes. 

Facebook
Twitter
LinkedIn
WhatsApp

Actualidad

Inscribete en nuestros cursos Online