Sin embargo, si el número alcanza un cierto límite, esto se vuelve imposible.
¿Por qué? El problema básico es: dada una señal, determine las huellas dactilares correspondientes. Este problema es paralelizable y, por lo tanto, podría resolverse mediante el uso de arquitecturas paralelas (GPU, incluso FPGA).
Una vez que tenga una manera de comparar de manera confiable su señal con una huella digital, y esto es posible incluso en la literatura científica conocida, puede ejecutar varias instancias de este algoritmo coincidente, una por huella digital en su base de datos (o grupo de huellas digitales) y recoger el resultado al final.
Una nota de la NSA clasificada en 2006 , filtrado por Snowden, afirma que algunas técnicas de identificación de oradores conocidas por la NSA funcionan, en sus propias palabras,
en gran parte independientemente del idioma hablado.
La singularidad es probablemente un problema, cuando se considera una escala tan grande. Incluso las huellas dactilares reales no son únicas.
Pensamiento altamente especulativo aquí. Podría ser posible combinar las huellas digitales de voz con otra información conocida (ubicación, propietario de ese número / dispositivo, nombres hablados en la conversación, por ejemplo, "Hola John"). Esto se puede hacer en una investigación, si es necesario. Podría ser posible hacerlo automáticamente, pero de nuevo esto es pura especulación.
De todos modos, ¿qué pasa con el almacenamiento? Vamos a hacer algunos cálculos simples.
Tome este documento como ejemplo de un sistema de reconocimiento automático de altavoces conocido públicamente. Reclama una tasa de error igual (EER) entre 0.57% y 2.62% con 25 segundos de grabación de entrenamiento por persona.
A 8 kbps, 25 segundos equivalen a 200 KB. Multiplica esto por 7 × 10 9 (7 mil millones de personas en esta Tierra), y obtienes 1.4 petabytes.
Si bien puede parecer enorme, no es imposible.
El centro de datos de la NSA en Utah Se asume que tiene una capacidad máxima de 3 a 12 exabytes . Se estima que Google tiene 10-15 exabytes de datos. Estamos hablando de miles de petabytes aquí.
Aunque esto es claramente una estimación, el orden de magnitud debe ser correcto.
Además, no es necesario que guardes todas esas grabaciones de entrenamiento. Una vez que haya extraído las características que desea, podría, al menos en teoría, eliminarlas, lo que significa que puede ahorrar mucho espacio. Tampoco estamos considerando avances clasificados en los sistemas de identificación de oradores, lo que podría ser posible.
No está claro si es posible hacerlo en tiempo real, debido a la gran cantidad de huellas dactilares, pero la identificación en tiempo no real parece ser factible incluso si se reúnen muestras de cada persona viva en la Tierra.
Conclusión. Aunque obviamente no lo sabemos con seguridad, la identificación automática de los oradores en las llamadas telefónicas, dado los ejemplos de capacitación de cada persona en la Tierra, parece un problema desafiante pero técnicamente factible para una organización muy avanzada . No está claro si se puede hacer en tiempo real. La singularidad de la huella digital (o la falta de ella) puede ser un problema a una escala tan grande.