¿Cómo hacer que la base de datos de direcciones IP sea anónima?

6

Tengo que realizar las estadísticas de conexión de la dirección IP de forma anónima porque los datos tienen un riesgo de seguridad. ¿Cómo lo hago?

¿Es así, que los números de IP y las redes se reemplazan por códigos aleatorios, y cuando el operador está clasificando las estadísticas, solo puede ver los códigos?

Sin embargo, el software backend tiene los números de IP allí, que se utilizan para actualizar las estadísticas. ¿Debo cifrar estos datos y generar los códigos a la vez?

O, simplemente puedo comprimir los datos de la manera, agrupando los números por ejemplo. en su país, por ejemplo, Tendría el código de número de IP que pertenece al Reino Unido "hashedipaddr" = > "GB", y para este grupo aleatorio, se asignarán múltiples números de IP.

    
pregunta Andrew Smith 04.08.2012 - 01:59
fuente

2 respuestas

13

Si las estadísticas que estás recopilando son tan simples como "¿He visto esta IP antes?" entonces un Filtro de Bloom es ideal. Las búsquedas e inserciones de Bloom Filter son O (1). Pero lo más importante es que no puede revertir un filtro de floración, ni siquiera usar fuerza bruta debido a una tasa de falsos positivos inevitable. Podría tener una variedad de filtros de floración para poner la dirección IP en categorías, como poner todas las búsquedas de geo-ip de los EE. UU. En el mismo filtro de floración.

Una función criptográfica de hash o criptografía asimétrica sería menos que ideal, ya que es fácil de usar en bruto para un espacio de teclas tan pequeño.

    
respondido por el rook 04.08.2012 - 19:25
fuente
5

Este es un tema bastante complicado. No proporciona suficiente información sobre lo que está tratando de hacer para que le proporcione una solución detallada, por lo que tendré que atenerme a los principios generales:

  • La anonimización es difícil e imperfecta. Si bien puede intentar ocultar algunos de los datos (por ejemplo, las direcciones IP), tenga en cuenta que este es un tema muy delicado. Muchos intentos de anonimización han resultado ser defectuosos. Por lo tanto, si bien vale la pena intentar utilizar métodos técnicos para anonimizar los datos tanto como sea posible, prepárese para la posibilidad de que puedan tener defectos.

  • Asegure la aprobación legal y de políticas. Obtenga la aprobación de las personas adecuadas a nivel de políticas en su organización para liberar el conjunto de datos anónimos. Además, solicite y obtenga un acuerdo escrito y firmado por parte del destinatario de que usará los datos solo para ciertos propósitos especificados de antemano; que no compartirán los datos con otros; que usarán métodos razonables para asegurar el acceso a los datos; que le informarán de cualquier violación de seguridad; y que destruirán los datos a su solicitud.

  • Aplique métodos técnicos. Use métodos técnicos para ocultar las direcciones IP y cualquier otra cosa que pueda identificar a los usuarios.

    • Direcciones IP. El mejor método para anonimizar las direcciones IP depende en gran medida del uso previsto del conjunto de datos y del tipo de análisis que desea que el receptor pueda realizar. El método más seguro es eliminar todas las direcciones IP. Si esto elimina demasiada información para su situación, necesita contarnos más sobre su situación.

      Otros métodos que se han propuesto incluyen: reemplazar cada dirección IP con su hash SHA1 (esto es no seguro; con solo 2 32 direcciones IP posibles, es trivial para revertir los hashes y recuperar las direcciones IP originales (por lo tanto, no use este método); reemplazando cada dirección IP con un hash SHA1 de la dirección IP y un secreto criptográfico de 128 bits (esto es mucho mejor, aunque todavía permite vincular todos los flujos con la misma dirección IP, por lo que si revela algún contenido del paquete, esto puede identificar a los usuarios y revelar toda su actividad); hash solo los primeros 16 bits de la dirección IP, nuevamente con una clave criptográfica (un poco mejor aún, pero aún así puede comprometer la privacidad de los usuarios si incluye el contenido del paquete).

    • Otros datos de paquetes. No recomiendo no incluir ningún contenido de carga útil en el conjunto de datos. Los encabezados son una cosa; Los datos de carga útil son mucho más altos.

  • Aprenda de otros. Sugiero leer el material en la literatura de investigación pública sobre este tema. Aquí hay un buen papel:

    Hay una serie de otros trabajos de investigación sobre el tema; busque en Google Scholar los documentos que citan a este para encontrar más.

    Le recomiendo que lea esta investigación previa, ya que tiene importantes lecciones para usted. Aprenda de los errores de otros y del éxito de otros: es mucho más seguro que cometerlos usted mismo.

respondido por el D.W. 06.08.2012 - 07:49
fuente

Lea otras preguntas en las etiquetas