Requisito de anonimización / cifrado de datos

2

Verifiqué las publicaciones anteriores y no encontré lo que buscaba, disculpas si esto es una repetición.

Estoy trabajando en un compromiso de análisis para un cliente y él necesita compartir el acceso a sus transacciones de ventas para que yo pueda hacer mi trabajo. La idea era crear una rutina de cifrado en la que detalles como SSN y Zip se anonimizarían para que yo no tuviera acceso a los datos de PII. Cuando presento los resultados, necesita poder ver los datos originales del texto confuso con el que trabajo.

Desde una perspectiva de definición, entiendo que el enmascaramiento / ofuscación ocultaría los detalles y posiblemente afectaría la integridad referencial. Leo sobre tokenización y creo que es un modelo bastante complejo. Probablemente me esté perdiendo un matiz aquí ...

Realmente no me importa el tiempo de proceso para cifrar / descifrar, eso no es relevante y el costo de procesamiento puede ignorarse. Solo necesito una forma de SSN: 123-45-6789 debe cifrarse constantemente para decir, A467YuGHT, para que pueda trabajar sin impedimentos y el cliente se sienta cómodo de que ningún dato que él haya compartido conmigo viole la PII del cliente. Cuando presento un informe que indica que A467YuGHT es una posible rotación, él lo descifra al 123-45-6789 [hay demasiados PII para que pueda crear identificadores alternativos]

Estaba pensando en una clave privada (que el cliente retiene) / clave pública para hacer esto. ¿Me estoy perdiendo algo aquí? Cualquier herramienta de código abierto que haga esto

    
pregunta raghu 03.07.2014 - 22:51
fuente

4 respuestas

2

Entiendo sus problemas, pero una de las máximas fundamentales de la criptografía es que no debe reinventar la rueda y crear su propio algoritmo de cifrado, principalmente porque no será tan seguro como el establecido.

¿Se podrá acceder a estos datos a través de Internet o se transmitirán a través de canales no cifrados? Si la respuesta a cualquiera de estas preguntas es sí, el factor de riesgo aumenta exponencialmente. Si utiliza sus propios esfuerzos caseros para la ofuscación, todo lo que necesita es un hacker decidido para averiguarlo y tendrán todos sus detalles de SSN.

¿Cómo podrían encontrarlo? ¿Qué pasa si el cliente deja algo por ahí diciéndole cómo descifrar? ¿Qué pasa si tu correo electrónico es hackeado? ¿Qué pasa si tu servidor no es tan seguro como pensabas?

Realmente necesita una solución en la que si alguna de esas cosas sucede, un adversario aún no pueda descifrar los datos, y en realidad eso solo viene con una infraestructura de clave pública establecida. Claro que hay maneras de derrotarlo, pero desafortunadamente la realidad es que son mucho más difíciles de lo que sería comprometer un algoritmo de cifrado de cosecha propia.

    
respondido por el TimC 03.07.2014 - 23:04
fuente
2

Te recomiendo que lo mantengas simple. Simplemente puede AES los campos que necesita proteger.

Independientemente del método de cifrado que utilice, debe cifrar juntos algunos campos:

  • Nombre + Apellido
  • Fecha de nacimiento
  • Estado + número de calle + nombre de la calle * ...

De lo contrario, podrías probar el análisis estadístico con los datos.

    
respondido por el miniBill 04.07.2014 - 01:54
fuente
0

La mayoría, si no todos, los motores de base de datos admiten 'columnas cifradas' que almacenan los datos de forma segura, por lo tanto, sí, hay herramientas que lo hacen por usted.

A continuación, tiene el problema de la búsqueda basada en esas columnas cifradas.

enlace

La explicación rápida es que almacena un hash de los datos junto con los datos cifrados. Puede consultar y unirse a esa columna solo si sabe qué contiene esa columna, por lo que esta técnica solo es factible para los datos que el usuario conoce explícitamente para el punto de entrada (parámetros de entrada) de la consulta, pero después de eso debe poder únete, pero solo en coincidencias , ya que incluso una falta de coincidencia en la codificación de espacios en blanco provocará una efecto de avalancha en el hash.

    
respondido por el Andrew Hoffman 20.11.2014 - 16:24
fuente
0

¿Por qué no usar solo una herramienta como IRI FieldShield (funciona en cualquier DB y archivo plano a través de Eclipse) o línea de comando) y aplique el cifrado de preservación de formato AES-256 como regla en las columnas de SSN y código postal en sus fuentes. Eso preserva el realismo, la integridad referencial, el acceso restringido y la reversibilidad, todo al mismo tiempo.

    
respondido por el Urvashi Saxena 25.11.2014 - 05:31
fuente

Lea otras preguntas en las etiquetas