¿Cuál es un enfoque razonable para la identificación de datos?

13

Un cliente me ha pedido que desidentifique los datos de PHI en su base de datos y estoy simplificando demasiado el proceso o mi cliente está demasiado paranoico. Quizás puedas decirme cuál es el caso.

La necesidad de desidentificación de este cliente es doble. Cuando pierden a un cliente, tienen el derecho de conservar una copia no identificada de los datos para fines analíticos. Además, deben poder mover los datos a entornos de desarrollo / prueba en una forma no identificada.

Aquí hay un ejemplo de lo que estaría en la base de datos:
Nombre de pila
Apellido
Género
Fecha de nacimiento
Instalación
Fecha de Admisión
Fecha de alta
Puntaje de admisión
Puntuación de alta

Estos datos se utilizan para el análisis y algunos de los factores importantes son:
Género
Edad de ingreso (Fecha de ingreso - Fecha de nacimiento)
Duración de la estancia (Fecha de alta - Fecha de admisión)
Mejora (puntaje de alta - puntaje de admisión)

Aquí están mis preguntas ...

Si simplemente aleatorizo los nombres, ¿esto no está lo suficientemente identificado como para satisfacer los requisitos de HIPAA?

No lo creí. ¿Qué pasa si también aleatorizo el nombre de la instalación? Si solo conozco los demás datos, fecha de nacimiento, sexo, fechas y puntajes, ¿se ha identificado de manera razonable?

Bien, asumiendo que la respuesta es no, ¿qué pasa si luego elijo una fecha de nacimiento aleatoria y ajusto las fechas de ingreso y alta para que la edad de ingreso y la duración de la estadía sean las mismas? Por ejemplo, si el paciente nació el 1/1/1930 y fue admitido el 1/1/2011 y dado de alta el 10/01/2011, la fecha de nacimiento podría elegirse al azar como 5/5/1920 y las otras fechas serían 5 / 5/2001 y 5/14/2001. La edad de admisión y la duración de la estancia sería la misma. ¿Sería esto razonablemente deidentificado?

También, otra pregunta. Si el cliente tiene una lista de pacientes con sus fechas de nacimiento en una hoja de cálculo de Excel (no hay otra información), ¿esos datos se considerarían como PHI? Mi cliente dice que sí, pero eso no tiene sentido porque no hay información médica vinculada a esos nombres.

Gracias por tu aporte!

Darvis

    
pregunta 22.11.2011 - 15:34
fuente

3 respuestas

7

Realmente no creo que tengamos suficiente información, y suena como que usted tampoco, sobre lo que quiere exactamente su cliente. Parte de su problema no es solo la deidentificación, sino la deidentificación que mantiene la utilidad de los datos. La segunda parte es tan complicada como la primera.

  

Bien, asumiendo que la respuesta es no, ¿qué pasa si luego elijo una fecha de nacimiento aleatoria y ajusto las fechas de ingreso y alta para que la edad de ingreso y la duración de la estadía sean las mismas? Por ejemplo, si el paciente nació el 1/1/1930 y fue admitido el 1/1/2011 y dado de alta el 10/01/2011, la fecha de nacimiento podría elegirse al azar como 5/5/1920 y las otras fechas serían 5 / 5/2001 y 5/14/2001. La edad de admisión y la duración de la estancia sería la misma. ¿Sería esto razonablemente deidentificado?

Por ejemplo, esta solución, si bien puede que técnicamente haya cambiado la PHI para que no se pueda rastrear a un individuo en particular, ha arruinado cualquier utilidad relacionada con el tiempo de los datos que no están Solo la diferencia entre la fecha de admisión y de alta. Un análisis de los datos no pudo, por ejemplo, ajustarse para la temporada del año en que fue admitido (importante para muchas enfermedades) o incluso en qué año fue el ingreso (importante para todo tipo de cosas ).

  

También, otra pregunta. Si el cliente tiene una lista de pacientes con sus fechas de nacimiento en una hoja de cálculo de Excel (no hay otra información), ¿esos datos se considerarían como PHI? Mi cliente dice que sí, pero eso no tiene sentido porque no hay información médica vinculada a esos nombres.

No sabemos quién es su cliente, pero teniendo en cuenta el sitio en el que está preguntando, la respuesta es absolutamente . La existencia de estos registros implica cierta información médica. Considere tres circunstancias, de riesgo variable para el paciente si está expuesto:

  1. La patente X está en la lista de la Clínica Y. Deben haber ido allí.
  2. El paciente X está en la lista de la Clínica Y. Esa clínica hace pruebas de detección de ITS. Me pregunto qué estaban haciendo?
  3. El paciente X está en la lista de la Clínica Y. Esa clínica está ayudando a administrar un estudio de prevalencia del VIH entre trabajadores sexuales de alto riesgo en el área. ¿No es eso interesante ...?

Todos ellos podrían reunirse con nada más que un nombre y fecha de nacimiento, y la existencia de la lista en sí misma . "Aparece en los registros de un proveedor de atención médica" es información médica.

    
respondido por el Fomite 15.12.2011 - 06:06
fuente
4

La forma en que leemos el HIPAA / HITECH actual es que dos datos se consideran PHI y necesitan protección.

Entonces, sí, la hoja de cálculo con fname, lname y DoB es totalmente PHI y debe estar protegida. El hecho de que no haya datos de reclamación no hace que no sean datos de PHI.

Dicho esto, tenemos nuestros datos "encriptados en reposo" con el Cifrado de datos transparente utilizando SQL2008R2. Es suficiente que la compañía haya decidido cubrirnos para HIPAA / HITECH. Desinfectamos los datos para las pruebas, pero no en producción.

    
respondido por el RateControl 22.11.2011 - 16:23
fuente
3

Como nota adicional, podría haber una gotcha en el futuro si solo reemplaza nombres y fechas de nacimiento al azar. Es posible que desee agregar un identificador a la tabla para indicar que ha realizado la aleatorización para no agrupar datos buenos o considerar datos antiguos como buenos.

    
respondido por el Nicholas Orlowski 22.11.2011 - 20:38
fuente

Lea otras preguntas en las etiquetas