¡Ojo con quién hablas! La voz es un nuevo agujero negro para la privacidad
Interactuar con la tecnología a través de la voz es tendencia. El envío de mensajes de audio por Whatsapp, pedir al navegador del coche que llame a fulanito, autorizar la grabación de nuestras conversaciones para contratar un servicio form parte de la tididianidad de la mucísimas personas. Pero no hablemos de los que recurren a Alexa, Siri y otros asistentes virtuales antes de consultar información, encender las luces, cambiar de canal de televisión o manejar otros dispositivos con un clic de frases. O quienes usan su voz como contraseña.
Entre unas y otras acciones va creciendo la hella vocal, el rastro de datos de voz que uno deja. Y la voz de una persona revela mucho, sobre todo si quien la analiza no es un humano sino una máquina, una inteligencia artificial.
Se puede saber la emoción de quien habla, su sexo, estado de salud, edad, origen…
Javier Hernando Investigador, director del centro Talp de la UPC
“En un audio hay mucha información y una máquina puede capturarla; se puede saber quién habla, la emoción y la intención de quién está hablando, su sexo, edad, origen geográfico e incluso estado de salud”, resume el investigador Javier Hernando, especialista en biometría de la voz y director del Centro de Tecnologías y Aplicaciones del Lenguaje. y el Habla(Talp) de la UPC.
A las empresas toda esa información les interesa porque permite crear un perfil más completo de sus clientes o usuarios. Tik Tok comenzó a recolectar huellas de voz el año pasado, y algunos centros de llamadas usan inteligencia artificial para analizar el comportamiento y las emociones de las personas durante las llamadas, según Henry Turner y Emmanuel Vicent, especialistas en tecnología de voz. La Universidad de Oxford y el Instituto Nacional de Investigación de Ciencia y Tecnología Digital de Francia, respectivamente, han expresado públicamente su preocupación por el impacto que tienen en la privacidad.
El riesgo de la suplantación
Al riesgo de usos comerciales ajedan el de deep voice, la posibilidad de que pirates informaticos clonen la voz de una persona para hacerse pasar por ella y cometer algun tipo de fraude. “Ya se ha visto algún caso de suplantación de voz para atacar a alguien de su círculo cercano y cometer una estafa monetaria”, explicó Marc Rivero, analista de la firma de ciberseguridad y privacidad digital Kaspersky.
Un ejemplo de estas estafas es el denominado fraude del CEO, en que el estafador llama a un empleado con acceso a los recursos económicos haciendo pasar por un alto cargo de la compañía para que de forma urgente pague una factura o haga una transferencia a una cuenta controlado pero delincuente.

Álex García, “Es un tipo de fraude que ahora no tiene mucho impacto pero que nos tememos que irá a más, que puede haber ciberdelincuentes que se especialicen en suplantar la voz y en el futuro este sea un fraude tan común como el phishing (el envío de correos electronicos haciendo pasar por el banco o por una compañía de servicios para obtener información sobre su cuenta bancaria o la tarjeta de crédito)”, comentó Ángela M. García Valdés, técnica de ciberseguridad para ciudadanos del Instituto Nacional de Cyberseguridad de España (Incibe).
Hernando explicó que la inteligencia artificial “te permite generar una voz que te parece suficiente antes de entablar una persona”, por lo que “conviene grabar la conciencia de la voz de tus datos y cuidar de facilitarla”.
No se trata de volverse paranoico, pero sí de tener sentido crítico ante las llamadas
Ángela García Valdés Técnica de ciberseguridad INCIBE, precisa que no se trata de agobiarse y dejar de hablar o de distorsionar la voz por si a uno le graban, porque como dato biométrico que es, la voz está cubierta por la protección de datos y están limitados los usos que las empresas pueden hacer con ella
Sí, aconsejo pesar siempre si vale la pena usar la voz para interactuar con una máquina. “Ante una gestión importante online como comprar un piso en medio de la pandemia quizás esté justificado acceptar la grabación de nuestra voz, pero si es para comprar verduras a través de Amazon igual no viene al caseo dar la voz”, comentó el investigador del UPC.
“No se trata de volvernos paranoicos, porque no podemos dejar de hablar por teléfono, pero sí de adoptar cautelas, usar el sentido común y tener una mentalidad crítica sobre las llamadas que nos llegan por si pretenden engañarnos”, coincide García Valdés.
La ley de protección de datos también se aplica al vehículo
Joana Marí, delegada de protección de datos y responsable de proyectos estratégicos de la Autoridad Catalana de Protección de Datos (apdcat), señala que cuando una empresa nos agarra la voz nos informa qué hará con esos datos, ¿quién será? tratarlos, y qué derechos tenemos porque está sujeto a toda la normativa de protección de datos.
Pero también recuerda que “la voz tiene valor, y es información que se puede utilizar de forma muy positiva o negativa, por eso debemos ser conscientes de que cuando dejamos la pista vocal en un dispositivo nos estamos dejando algo a nosotros, nuestra privacidad”. intimidad, la propia imagen, de modo que antes de usar la voz para manejar un dispositivo derivémos valorar si la comodidad compensa o no el riesgo”.
¿Quién custodia las grabaciones de nuestras llamadas?
“Cualquier entidad que utilice un sistema de grabación de voz debe cumplir con la normativa de protección de datos, porque la voz es un dato de carácter personal que permite identificar directa o indirectamente a una persona”, explica Joana Marí, de Apdcat. Eso significa que se ha de informar a la persona de quien es el responsable del tratamiento de esos datos, qué tecnología usan para tratarlos, tener base jurídica (un motivo) para recabarlos y utilizarlos uniónica para ese fin y, si se se usa para algo distinto , anonimizarlos.
Marí ajeda que si la voz se usa como dato biométrico para verificar la idetnidad de una persona, entonces se exigen mayores medidas de seguridad y protección, como disponer del consentimiento explícito o una evaluación de impacto si se analizan mediate inteligencia artificial. Lo que no hay, apunta la experta en protección de datos, es un plazo máximo para guardar las grabaciones de voz. “Dependiendo de lo que recojas esos datos podrás mantenerlos más o menos tiempo y sólo podrás recoger los datos necesarios para esa finalidad”, concluyó.
Pero más allá de que las personas sean más o menos cautas a la hora de interactuar vía voz, los expertos en biometría y sistemas de reconocimiento de voz creen que pronto será la tecnología la que facilite herramientas para proteger la privacidad, sea mediar sistemas de anonimización o de autenticación de identidad.
“La tecnología está evolucionando muy rápido para no dejarse engañar por las grabaciones: una persona puede ser engañada por un imitador, pero una máquina con sistemas robustos no”, asegura Hernando.
Cuando dejamos rastro vocal en un dispositivo estamos dejando ir algo de nosotros
Joana Marí Responsable proyectos estratégicos de Apdcat. En la misma línea que expresa Miguel Antonio García, responsable de marketing de Biometric Vox, empresa especializada en herramientas de inteligencia artificial que permiten identificar lo que dice y quién lo dice a través del análisis de los parámetros biométricos del locutor.
A día de hoy, estos sistemas de verificación y autenticación son utilizados por bancos, aseguradoras y vendedores directos o la ONCE para realizar operaciones seguras a través de la voz, pero García está convencido de que en el futuro serán muchas más las empresas y particulares que los incorporen para detector de forma automática. si quien llama es quien dice ser.
“Igual que ahora usamos de forma generalizada antivirus para evitar phishing y otros fraudes, usaremos aplicaciones de voz biométrica para autenticar la identidad digital de los otros”, señaló.
Tecnologías que autentican quién habla. Sistemas de IA verifican la identidad por la huella voice
El tono, el timbre, la frecuencia vocal y la cavidad bucal son factores que determinan que cada locutor tenga una firma vocal única, lo que lo convierte en un instrumento muy útil para autenticar personas o, en la sociedad actual, identidades digitales.
“Hoy se pueden signar contratos solo con la voz, se usa la voz como biomarcador para analizar el estado de salud, en periciales de procesos judiciales… así que es fundamental Guaranteear con que persona estamos hablando”, ejemplifica Miguel Antonio García, director de marketing de Biometric Vox. Y explica que la tecnología actual facilita dos procesos de autenticación de voces muy seguras.
En primer lugar, la verificación, consiste en registrar a una persona como usuario de una empresa o servicio a través de la hella vocal que deja al decir una palabra clave o una contraseña. Después de eso, cuando quieras acceder a esa empresa o servicio, solo tienes que repetir esa palabra o contraseña. “Es un sistema cómodo y rápido, muy útil para personas mayores o con discapacidad visual”, comentó García.
La segunda opción de autenticación es dejar identificación , en el que la hella vocal que se registra no es una palabra sino una conversación de 20 o 30 minutos. Y cuando la persona quiere operar con ese banco o empresa, se comprueba si su voz coincide con la hella vocal que se tiene registrada en la base de datos.
García destaca que la biometría de voz tiene tres características que la hacen muy segura como sistema de identificación: es abstracta (no hay contraseña que pueda ser robada), es irreversible (a partir de la voz se puede diseñar la huella vocal pero a partir de esa huella no se puede replicar la voz porque solo se guardan parametres que identificadora esa voz encriptados y anonimizados) y es cancelable (apetition del usuario se borra y si la base de datos fuera atacada por hackers podridan darse cuenta de baja todas esas huellas vocales y registrar de nuevo a todos los usuarios).
Tanto el director de Biometric Vox como el experto en biometría y tecnologías del habla de la UPC Javier Hernando destacan que estas herramientas de inteligencia artificial son muy robustas y, a diferencia de la mayoría de los humanos, son capaces de detectar imitaciones, grabaciones de voz o las voces digitales. , de modo que evitan suplantaciones de identidad. “Nuestra tecnología antispoofing (suplantación de identidad) detecta imitaciones o copias duplicadas porque es matemáticamente imposible que cuando repites una contraseña o dices una palabra siempre tarda los mismos segundos o muestra exactamente lo mismo, por lo que una muestra de voz es muy parecida. al anterior, el sistema la rechaza; y también detecta grabaciones o copias sintezadas ( deepvoices) porque emiten unas ondas que no tiene la voz humana”, explicó García.
Hernando comentó que estas tecnologías de reconocimiento de voz son auditadas por expertos externos y cada año son probadas y desafiadas por organismos de seguridad nacionales e internacionales y agencias de seguridad nacionales e internacionales.
Fuente: onamoxil