Diseñan una técnica basada en redes neuronales que impide suplantar la identidad en sistemas de reconocimiento de voz

Compartir

Investigadores de la Universidad de Granada (UGR), pertenecientes al departamento de Teoría de la Señal, Telemática y Comunicaciones, han diseñado una nueva técnica basada en redes neuronales que evita poder suplantar la identidad del usuario en los sistemas de identificación automática por voz de los dispositivos electrónicos, como smartphones o tablets.

El acceso a portales de información a través de dispositivos electrónicos requiere de mecanismos de autenticación seguros que permitan identificar con garantías la identidad que el usuario afirma ser. Frente al uso tradicional de mecanismos basados en pares usuario y contraseña, en los últimos años el uso de métodos autenticación biométricos, como el reconocimiento facial o por voz, ha experimentado un crecimiento significativo.

Como ventajas, los métodos de autenticación biométricos liberan al usuario de tener que recordar las claves para acceder a estos sistemas, ya que la autenticación se hace en base a características biométricas del usuario, por ejemplo su huella dactilar, iris o cara.

En este artículo, que publica la prestigiosa revista IEEE/ACM Transactions on Audio, Speech, and Language Processing, los investigadores de la UGR profundizan en el estudio de un tipo de autenticación biométrica que está suscitando un especial interés tanto entre la comunidad científica como en el ámbito empresarial: la biometría de voz.

“La voz es una característica personal única, diferente para cada uno de nosotros. Con sólo escuchar una palabra podemos distinguir sin problemas la voz de nuestros familiares o amigos. Esto se debe a las características anatómicas únicas en cada persona respecto de los órganos que intervienen en la producción de voz. La biometría de voz, por tanto, permite identificar a una persona a través de su voz”, explica Alejandro Gómez Alanís, investigador del departamento de Teoría de la Señal, Telemática y Comunicaciones de la UGR y autor principal del trabajo.

Ataques maliciosos

En los últimos años, no obstante, se ha demostrado que los sistemas de verificación automática por voz son susceptibles de ataques maliciosos por parte de intrusos que quieran lograr un acceso fraudulento al sistema de información. Así, estos intrusos podrían usar muestras de voz de un usuario legítimo para acceder de forma fraudulenta al sistema. Estas muestras de voz las podrían obtener, por ejemplo, realizando grabaciones encubiertas a usuarios legítimos del sistema o usando software de síntesis y conversión de voz de última generación, el cual permite clonar la voz de una persona a partir de unos pocos minutos de su voz.

“En nuestra investigación abordamos este problema, proponiendo una nueva técnica de detección de intrusos para biometría de voz. En concreto, proponemos una técnica basada en redes neuronales profundas para discernir si la voz de entrada al sistema pertenece a un usuario legítimo o es un ataque de suplantación de identidad realizado por un intruso”, señala Gómez.

La técnica propuesta se denomina Gated Recurrent Convolutional Neural Network (GRCNN) y permite detectar ataques de seguridad a sistemas de biometría de voz. El grupo de la UGR ha participado con esta técnica en el reto de anti-spoofingASVspoof 2019 (https://www.asvspoof.org), quedando entre los 10 primeros sistemas del ranking de un total de 63 grupos de investigación y empresas participantes a nivel internacional, tanto en la detección de ataques de acceso físico (grabación y repetición) como de acceso lógico (síntesis o conversión de voz).

En resumen, “en este trabajo hemos abordado el problema de la detección de ataques de suplantación de identidad a través de la voz conocido popularmente como anti-spoofing, donde el reto principal es el desarrollo de sistemas que sean capaces de detectar ataques no vistos durante la etapa de entrenamiento. En nuestras propuestas combinamos la capacidad discriminativa que otorgan las redes neuronales con métodos clásicos de procesado de señal para impregnar conocimiento de la señal en la red, y así, guiar la detección de ataques de suplantación en diferentes tipos de condiciones acústicas”.

Dejar una respuesta

Please enter your comment!
Please enter your name here

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.