Actualmente he escuchado mucho sobre la privacidad diferencial pero no puedo saber qué es exactamente en un lenguaje que no es matemático. Hasta ahora, mi entendimiento es que agrega ruido a la respuesta que recibe su consulta a la base de datos.
La página de Wikipedia tiene matemáticas, pero también un ejemplo que puede o no ser esclarecedor: si puede solicitar una base de datos para la suma de los valores de una columna para las filas 1 a n , luego realice la solicitud para n-1 y para n le permite reconstruir la información sobre la fila n . Por lo tanto, permitir la consulta "suma de todos los valores para las primeras filas n " y devolver el resultado exacto se puede utilizar para obtener información exacta de cada fila.
Privacidad diferencial es el concepto matemático mediante el cual se mide la cantidad (o la poca) de una base de datos que conserva el anonimato (es decir, evitar problemas como el anterior). Agregar ruido aleatorio es un método para lograr (con suerte) un cierto nivel de privacidad diferencial. Este no es el único método posible, pero al menos es relativamente sencillo de implementar, y podemos calcular cuánto protege el anonimato, es decir, en el formalismo matemático, cuál es el valor alcanzado de "ε" en la expresión "la base de datos". Asegura la privacidad diferencial ε ".
Agregar ruido es una compensación: le da a algo de privacidad a expensas de la facilidad de uso, ya que los valores devueltos son "ruidosos", por lo tanto imprecisos. Si desea más privacidad, debe degradar la calidad de las respuestas de la base de datos. La investigación sobre la privacidad diferencial se concentra en la búsqueda de nuevos algoritmos para devolver respuestas más precisas a las consultas estadísticas a la vez que protege mejor la privacidad. Tales nuevos algoritmos son pesados en matemáticas.
Lea otras preguntas en las etiquetas privacy