Actualmente estoy trabajando como pasante de verano.
Mi primer objetivo es, dada una colección de archivos, recuperar e identificar los tipos de archivos presentes en él.
Para descargar datos de pseudo-forense de muestra que he estado usando: Corpora Digital
Para recuperar archivos, he estado usando ' The Sleuthkit ' pero esto no parece funcionar, ya que siempre recibo mensajes de error. en relación con el formato de los datos utilizados.
Sería genial obtener sugerencias / enlaces a tutoriales o software que ayuden a recuperar datos.
También espero con interés enlaces para descargar datos forenses de psuedo similares a los de arriba.
Específicamente, me gustaría recuperar todos los datos que están en formatos de texto (word, pdf, correos electrónicos, html ... etc), luego unificarlos en un solo archivo en formato de texto y luego usar el procesamiento en lenguaje natural para determinar los lugares La persona fue asociada con. Tengo algunas ideas con respecto al aspecto de procesamiento del lenguaje natural del problema, pero necesito ayuda con respecto a la recuperación de datos. Cómo hacer mejor esta tarea.