Usted tiene razón al decir que los ataques de fuerza bruta son factibles, especialmente si los datos que se están procesando provienen de un espacio de búsqueda relativamente pequeño. Aquí hay un ejemplo reciente donde los detalles del taxi de Nueva York se disfrazaron inadecuadamente con un hachís. Del artículo:
Resulta que hay una falla significativa en el enfoque. Porque ambos
los números de medallones y hackeos están estructurados en patrones predecibles,
Fue trivial ejecutar todas las iteraciones posibles a través del mismo MD5.
algoritmo y luego comparar la salida con los datos contenidos en el
Archivo de 20GB. El desarrollador de software Vijay Pandurangan hizo eso, y en
menos de dos horas había anónimo completamente los 173 millones
entradas.
Tenga en cuenta que no es el uso de MD5 el problema aquí. Cualquier algoritmo hash podría ser forzado brutalmente exactamente de la misma manera.
Es posible que el hashing sea irreversible agregando sal antes del hashing; sin embargo, en ese momento, sería mejor crear una tabla de búsqueda que asigne datos confidenciales a valores completamente aleatorios, entonces no habrá un algoritmo hash para romper.
Por supuesto, todo esto supone que hay asociaciones en los datos que desea conservar después del anonimato. De lo contrario, el enfoque más seguro es omitir por completo o enmascarar los datos confidenciales.