¿Qué se necesitaría para escanear un PDF en busca de contenido cuestionable además de malware?

2

Mi empresa está intentando implementar una nueva función en nuestro sitio para permitir que los clientes carguen documentos que acompañan un pedido. Sabemos que necesitaremos realizar algún tipo de escaneo de malware llamando a un servicio. Sin embargo, mi jefe también ha solicitado que se realice un análisis de contenido cuestionable que podría terminar en nuestros servidores si no se detecta. Los archivos en cuestión serían en formato PDF. Mi instinto me dice que esto es un aumento significativo en la complejidad, ya que el sistema necesitaría descifrar el contenido de cada archivo PDF. ¿Hay algo por ahí que haga esto hoy, y qué haría el sistema para lograrlo?

    
pregunta Alice 28.06.2016 - 16:32
fuente

2 respuestas

1

Hay algunos marcos que vienen a la mente para esto. Mastiff , Viper , y IRMA . Todos están diseñados para la ingeniería inversa y el análisis de malware, por lo que cualquiera necesitará alguna personalización para ejecutarse. Por ejemplo:

Instalación inmediata:

client  --> uploads file to system
system  --> system sends it to one of the above
program --> analyzes file creates report

Necesitarías hacer algo como lo siguiente:

client  --> uploads file to system
system  --> system sends it to one of the above
program --> analyzes file if malicious delete/quarantine/etc
program --> analyzes file is not malicious send file to your org

Esto se puede hacer con un poco de trabajo, de lo contrario, se convierte en una pregunta específica del "proveedor": "Qué producto puede ...", que está fuera de tema aquí.

    
respondido por el munkeyoto 28.06.2016 - 17:00
fuente
1

El problema es definir qué es el "contenido cuestionable". Las tres posibilidades que vienen a la mente son:

  • malware
  • el material con derechos de autor se distribuye sin licencia,
  • contenido considerado ofensivo como calumnia / blasfemia / pensamiento / pornografía ....

El primero puede ser mitigado masivamente por aplanando el PDF archivos y análisis de virus por si acaso.

Abordar el segundo también es relativamente fácil: solo construya una base de datos de todo el contenido protegido por derechos de autor en el mundo y vea si algo en el PDF coincide. Aún necesita un proceso manual para "uso justo".

El tercero es un poco complicado.

    
respondido por el symcbean 28.06.2016 - 17:40
fuente

Lea otras preguntas en las etiquetas