Tengo un archivo PDF que, al pasar por "Propiedades" no muestra datos, por ejemplo, no se menciona al autor del archivo. De esta forma puedo desbloquear dicha información.
Desafortunadamente, rellenar metas es una buena práctica , pero no es un requisito.
Podrías crear un PDF desde aproximadamente cada programa capaz de imprimir algo, por lo que hay tantos creadores de PDF diferentes que aplicaciones.
Pero, podría dividir ( fuente ) su PDF, (con pdftk , ghostscript , pdfdetach y muchas otras herramientas) luego inspeccione cada componente.
Esto podría convertirse en un trabajo forense, pero podría determinar muchas cosas con este tipo de trabajo.
printf "%%1\n/Helvetica findfont\n11 scalefont\nsetfont\nnewpath\n
300 500 moveto\n(%s) show\nshowpage\n" TEST |
gs -sDEVICE=pdfwrite -sOutputFile=/tmp/test.pdf - -c quit
Esto producirá algún archivo PDF regular, que contiene solo la palabra TEST
...
pdfinfo /tmp/test.pdf
Producer: GPL Ghostscript 9.20
CreationDate: Fri Dec 8 17:46:00 2017 CET
ModDate: Fri Dec 8 17:46:00 2017 CET
Tagged: no
UserProperties: no
Suspects: no
Form: none
JavaScript: no
Pages: 1
Encrypted: no
Page size: 595 x 842 pts (A4)
Page rot: 0
File size: 2569 bytes
Optimized: no
PDF version: 1.5
Bueno, si desea ver los metadatos del archivo .pdf
, como Autor, Fecha de creación, Fecha de modificación, Tamaño, BookMarkID, etc.
Puede usar pdftk . Si no conoce la herramienta pdftk, aquí hay una línea de su manual
Si el PDF es un papel electrónico, pdftk es un documento electrónico. removedor de grapas, perforadora, aglomerante, anillo de decodificación secreto y Gafas de rayos X. Pdftk es una herramienta simple para hacer cosas cotidianas con Documentos PDF.
Llegando a su pregunta, pdftk también admite volcados de datos. Entonces, aquí está tu respuesta.
Instale pdftk
(si no está instalado):
sudo apt-get install pdftk
Luego ejecuta el comando:
pdftk "pdf_file_to_investigate" dump_data
Mostrará datos en forma de InfoKey & InfoValue donde Infokey
almacena el tipo de información y Infovalue
almacena la información en sí.
Necesito hacer dos puntos aquí:
yo El comando envía información a STDOUT. Por lo tanto, si la información es demasiada, estará fuera de la pantalla en el terminal. Una mejor manera sería guardar el contenido y luego verlo con el comando cat
. Para eso puedes hacer esto:
pdftk "pdf_file_to_investigate" dump_data > "pdfinfo_file_name.txt"
cat "pdfinfo_file_name.txt" | más
II. Puede agregar utf8 al final de data_dump si no funciona bien. Es solo el esquema de codificación de salida y es inteligente de usar. Para eso puedes hacer esto:
pdftk "pdf_file_to_investigate" dump_data_utf8 > "pdfinfo_file_name.txt"
Dependiendo del PDF, puede profundizar, como digamos que el pdf contiene archivos de imágenes escaneadas, puede inspeccionarlo utilizando un software forense pagado para ver si los píxeles se han alterado en la imagen o identificar potencialmente el modelo de escáner / copiadora utilizado para generalo.
Lea otras preguntas en las etiquetas pdf