¿Qué es un formato de archivo que sea fácil de usar y amigable con el texto pero _largely_ no editable?

1

Recientemente, me encuentro con más y más lugares que utilizan archivos PDF como un formato no editable para garantizar que los datos que contiene no se alteren de ninguna forma. (Ya sea una buena idea o no, es otra pregunta: el público en general "entiende" el PDF y sabe cómo generarlos fácilmente desde los sistemas).

Sin embargo, con lo que estoy teniendo problemas es coaccionarlo en un formato fácil de leer y analizar que permita el análisis de los datos en el PDF. pdftotext va por un largo camino, pero casi siempre hay un pequeño problema con su salida que lo convierte en una solución no ideal.

¿Hay alguna solución a este dilema? ¿Cuál es un formato de archivo amigable con el texto que puede ser razonablemente seguro de que sea el resultado original de algún software (sin pasar por los lazos de firmas y cifrado) que un lego podría abrir y leer fácilmente?

Nota : soy consciente de que todos los formatos son editables, pero no es tan evidente para el usuario promedio es decir que probablemente no sepan cómo editar un PDF sin algunas búsquedas. Además, no estoy abogando por esto, solo tengo curiosidad por saber si existe un formato más amigable con el texto. No voy a poder lograr que un gran número de personas entiendan qué son las firmas de los archivos, y mucho menos que las generen correctamente.

    
pregunta Alex Koay 16.09.2017 - 04:29
fuente

1 respuesta

2

No hay un formato de archivo que pueda impedir la edición. Solo puede hacer que sea más difícil hacer ediciones porque escribir un editor es demasiado complejo. Este fue el caso con PDF, pero ahora hay suficientes editores para PDF ya disponibles. Por lo tanto, para evitar la fácil edición, necesitará un formato complejo y difícil de entender: exactamente lo que no desea. Si tiene un formato simple, también será fácil escribir editores para él.

En lugar de asegurarse de que es demasiado difícil editar los datos, debería encontrar una mejor manera de detectar dichas ediciones. Y al separar el contenido de la protección, puede crear un formato que sea fácil de leer y difícil de manipular sin ser detectado.

Una forma común de hacer esto es usar firmas digitales. Cualquier firma incrustada en el archivo puede simplemente ser omitida por un lector humano o cuando es procesada por un script. Y dichas firmas también se pueden separar en archivos separados, lo que hace posible agregar firmas a cualquier formato de archivo.

Dependiendo de los requisitos de protección y utilidad al crear el documento, se pueden usar diferentes calidades de firmas. En el caso más simple, la firma podría ser un HMAC con la clave secreta necesaria incrustada en la aplicación que crea los archivos. En este caso, esta aplicación debe ser secreta o la clave debe estar protegida de alguna manera contra la ingeniería inversa. Las claves específicas del autor, el uso de tarjetas inteligentes, etc. ofrecen una mejor protección, pero esto podría ser demasiado complejo para su único caso de uso vago definido.

    
respondido por el Steffen Ullrich 16.09.2017 - 06:50
fuente

Lea otras preguntas en las etiquetas