Tengo una aplicación que necesita la funcionalidad de convertir documentos PDF a documentos de texto y luego los analizo para recuperar información. Estoy usando la utilidad xpdf pdftotext
para lograrlo.
Estoy muy preocupado por los ataques en mi servidor debido a las vulnerabilidades en los documentos PDF, como backdoor access en los archivos PDF cargados, u otras fallas de seguridad que lo acompañan como incrustar algunos comandos que pueden dañarnos, como contraseñas de fuerza bruta en mi base de datos, etc.
Soluciones posibles:
Herramientas como PDFiD que es sugerido aquí sobre la respuesta SE. Pero están bastante desactualizados y estoy muy nervioso por el uso de esas soluciones.
Ejecutando el comando pdftotext
como un usuario diferente que tiene menos privilegios en la máquina, de modo que no puede ver ni cambiar nada de lo que no es propietario, y tampoco puede emitir sudo
o su
comandos.
Estoy buscando ideas sobre cómo protegerme contra tales ataques potenciales.