Nada, excepto la pérdida de fidelidad debido a la grabación y la reproducción, siempre que el sistema sea susceptible de un ataque de repetición.
Pero si realiza la adquisición y la reproducción con una fidelidad superior a la que se construyó para el sistema de reconocimiento de voz, este último no tendrá una pista.
Podría ser posible analizar ecos y armónicos: un sistema fonatorio humano no produce sonidos desde un solo punto en el espacio, mientras que un altavoz sí lo hace. Esto requeriría varios micrófonos sensibles colocados en diferentes posiciones, para poder calcular el tiempo de vuelo para diferentes fonemas.
Desafío / Respuesta
Otra posibilidad es si el atacante solo tiene acceso a grabación fija y nosotros también podemos hacer reconocimiento de voz.
Creo que lo vi en una película 007, con el tipo acercándose a una puerta activada por la voz y jugueteando con su reloj, del que la 'Buena fiesta. Te recomiendo la ensalada de camarones ... " capturada la noche anterior en las voces del villano, abriendo la puerta.
Pero, ¿qué pasaría si la puerta hubiera preguntado: 'Repita después de mí: la batería de caballo está bien' '? La ensalada de camarones no la habría cortado.
Entonces:
- la voz está inscrita
- se le pide al usuario que pronuncie una determinada secuencia, cada vez que sea diferente
- la secuencia y la huella de voz deben coincidir.
Esto reduce las posibilidades de un ataque de repetición porque incluso si alguien grabara mi voz diciendo '577892', no podrían pronunciarse en mi voz '297779'. ¿O lo harían? Con una muestra lo suficientemente grande y una tecnología de síntesis de voz similar a Loquendo TTS, es posible que una computadora diga cualquier cosa en mi voz. Con solo unas pocas palabras o dígitos, el atacante ni siquiera necesita tanta tecnología.
La necesidad de evitar falsos negativos y falsos positivos, sumados al ruido de fondo, requiere enhebrar una aguja muy difícil: puede rechazar los fonemas exactamente idénticos como grabaciones, pero el ruido de fondo (ya sea real). o falsificado) haría esto muy difícil: dos reproducciones del mismo sonido se adquirirían como diferentes, mientras que la voz de la misma persona generará fonemas casi idénticos.
Por teléfono, cualquier intento de distinguir entre fonación "real" y "artificial" fallará, ya que la fonación siempre se aplanará artificialmente con el micrófono del remitente.
No soy de ninguna manera un experto en falsificación de voz artificial, pero estoy bastante seguro de que un presupuesto muy razonable para obtener muestras de voz, equipos de grabación y un marco de voz nos permitirá evitar cualquier autenticación de voz por teléfono. . Contra un oponente desprevenido armado solo con una grabadora, probablemente siempre ganará el voiceprint plus challenge / handshake.