¿Las características que pueden extraerse de un archivo PE (información de encabezados, nombres de secciones, cadenas, importar, exportar secciones, etc.) son suficientes para usarlas para entrenar algoritmos de aprendizaje automático específicos para detectar si el archivo sospechoso es malicioso o no? ¿no?
Me he encontrado con dos opiniones diferentes:
La primera opción indica que estas características son suficientes para crear un sistema de detección básico. Además, para aumentar la eficiencia y la precisión, se pueden incluir los atributos de comportamiento (por ejemplo, llamadas a la API).
Pero la segunda opinión afirma que estos atributos son inútiles en muchos casos porque muchas de estas características son redundantes y las características redundantes pueden dañar la calidad de un modelo.
También me pregunto si es posible detectar si una muestra de malware es similar a otra muestra e insinuar que una es una variante de la otra. ¿Es este tipo de información útil en la detección de malware?