¿Es posible identificar un usuario de teléfono móvil con reconocimiento de voz?

4

Un amigo mío afirma que es posible identificar cada llamada anónima (prepago, skype, etc.) solo mediante el reconocimiento de voz. Sin embargo, la literatura científica que he leído hasta ahora es ambigua, es decir, si aplica el reconocimiento de voz a un número limitado de personas, podría identificar con seguridad quién es quién. Sin embargo, si el número alcanza un cierto límite esto se vuelve imposible. Entonces, la pregunta es: ¿es realmente posible la identificación del usuario mediante el reconocimiento de voz de todos los participantes de la red o es que mi amigo está simplemente paranoico?

    
pregunta CuriousIndeed 13.05.2018 - 23:18
fuente

3 respuestas

2
  

Sin embargo, si el número alcanza un cierto límite, esto se vuelve imposible.

¿Por qué? El problema básico es: dada una señal, determine las huellas dactilares correspondientes. Este problema es paralelizable y, por lo tanto, podría resolverse mediante el uso de arquitecturas paralelas (GPU, incluso FPGA).

Una vez que tenga una manera de comparar de manera confiable su señal con una huella digital, y esto es posible incluso en la literatura científica conocida, puede ejecutar varias instancias de este algoritmo coincidente, una por huella digital en su base de datos (o grupo de huellas digitales) y recoger el resultado al final.

Una nota de la NSA clasificada en 2006 , filtrado por Snowden, afirma que algunas técnicas de identificación de oradores conocidas por la NSA funcionan, en sus propias palabras,

  

en gran parte independientemente del idioma hablado.

La singularidad es probablemente un problema, cuando se considera una escala tan grande. Incluso las huellas dactilares reales no son únicas.

Pensamiento altamente especulativo aquí. Podría ser posible combinar las huellas digitales de voz con otra información conocida (ubicación, propietario de ese número / dispositivo, nombres hablados en la conversación, por ejemplo, "Hola John"). Esto se puede hacer en una investigación, si es necesario. Podría ser posible hacerlo automáticamente, pero de nuevo esto es pura especulación.

De todos modos, ¿qué pasa con el almacenamiento? Vamos a hacer algunos cálculos simples.

Tome este documento como ejemplo de un sistema de reconocimiento automático de altavoces conocido públicamente. Reclama una tasa de error igual (EER) entre 0.57% y 2.62% con 25 segundos de grabación de entrenamiento por persona.

A 8 kbps, 25 segundos equivalen a 200 KB. Multiplica esto por 7 × 10 9 (7 mil millones de personas en esta Tierra), y obtienes 1.4 petabytes.

Si bien puede parecer enorme, no es imposible.

El centro de datos de la NSA en Utah Se asume que tiene una capacidad máxima de 3 a 12 exabytes . Se estima que Google tiene 10-15 exabytes de datos. Estamos hablando de miles de petabytes aquí.

Aunque esto es claramente una estimación, el orden de magnitud debe ser correcto.

Además, no es necesario que guardes todas esas grabaciones de entrenamiento. Una vez que haya extraído las características que desea, podría, al menos en teoría, eliminarlas, lo que significa que puede ahorrar mucho espacio. Tampoco estamos considerando avances clasificados en los sistemas de identificación de oradores, lo que podría ser posible.

No está claro si es posible hacerlo en tiempo real, debido a la gran cantidad de huellas dactilares, pero la identificación en tiempo no real parece ser factible incluso si se reúnen muestras de cada persona viva en la Tierra.

Conclusión. Aunque obviamente no lo sabemos con seguridad, la identificación automática de los oradores en las llamadas telefónicas, dado los ejemplos de capacitación de cada persona en la Tierra, parece un problema desafiante pero técnicamente factible para una organización muy avanzada . No está claro si se puede hacer en tiempo real. La singularidad de la huella digital (o la falta de ella) puede ser un problema a una escala tan grande.

    
respondido por el A. Darwin 15.05.2018 - 09:34
fuente
2

Bueno, probablemente sea cierto y trivial a falso. Puede encontrar motores de voz alrededor, y si usa un motor de voz de este tipo, no será posible identificar al ser humano que preparó el texto.

Peor aún, es fácil obtener palabras y / u oraciones parciales de personas públicas de la radio o internet. El procesamiento simple de archivos de audio puede hacer que digan más o menos algo. Y pronto caes en el mismo problema de identificar a los gánsteres que usan máscaras del reconocimiento facial ...

    
respondido por el Serge Ballesta 14.05.2018 - 12:53
fuente
-3

Si fuera posible el reconocimiento de voz, eso significaría que se debía crear una base de datos masiva, y esto nunca sucedería debido a problemas de seguridad. Tu amigo es paranoico.

    
respondido por el imlee 14.05.2018 - 14:25
fuente

Lea otras preguntas en las etiquetas