Recientemente, me encuentro con más y más lugares que utilizan archivos PDF como un formato no editable para garantizar que los datos que contiene no se alteren de ninguna forma. (Ya sea una buena idea o no, es otra pregunta: el público en general "entiende" el PDF y sabe cómo generarlos fácilmente desde los sistemas).
Sin embargo, con lo que estoy teniendo problemas es coaccionarlo en un formato fácil de leer y analizar que permita el análisis de los datos en el PDF. pdftotext
va por un largo camino, pero casi siempre hay un pequeño problema con su salida que lo convierte en una solución no ideal.
¿Hay alguna solución a este dilema? ¿Cuál es un formato de archivo amigable con el texto que puede ser razonablemente seguro de que sea el resultado original de algún software (sin pasar por los lazos de firmas y cifrado) que un lego podría abrir y leer fácilmente?
Nota : soy consciente de que todos los formatos son editables, pero no es tan evidente para el usuario promedio es decir que probablemente no sepan cómo editar un PDF sin algunas búsquedas. Además, no estoy abogando por esto, solo tengo curiosidad por saber si existe un formato más amigable con el texto. No voy a poder lograr que un gran número de personas entiendan qué son las firmas de los archivos, y mucho menos que las generen correctamente.