Ok, he encontrado la respuesta. Las empresas de AV utilizan técnicas de clustering / clasificación en sus herramientas de análisis propietarias. Estos son algunos ejemplos:
Kaspersky usa Astraea [1]: un sistema de análisis de malware basado en aprendizaje automático. Astraea analiza automáticamente las notificaciones de las computadoras protegidas y ayuda a descubrir amenazas previamente desconocidas. Al usar los metadatos de las amenazas (como la edad, el origen, el nombre del archivo, la ruta del archivo y más), el sistema puede detectar amenazas sin información sobre el contenido del archivo (¿solo características estáticas?).
Comodo usa Valkyrie [2]: es una plataforma de análisis de archivos basada en la nube que proporciona análisis estático, dinámico e incluso de expertos humanos para los archivos conocidos y desconocidos enviados. Valkyrie procesa más de 200 millones de envíos de archivos desconocidos cada día. Algunas de las técnicas de aprendizaje automático que emplea Valkyrie incluyen máquinas de vectores de soporte, bayes ingenuos, árboles de decisión y clasificadores de bosques aleatorios. Además, Valkyrie empleará análisis discriminante lineal, descensos de gradiente estocásticos, modelos de Markov ocultos y redes neuronales, solo para nombrar algunos.
Avast usa Medusa [3]: un sistema de clasificación alimentado por GPU. Cada nodo de Medusa utiliza dos o cuatro GPU de Nvidia. Cada muestra está representada por un vector de características de tamaño constante que consta de aproximadamente 100 atributos. Teniendo en cuenta la naturaleza de los atributos, terminaron con varios operadores de distancia y un esquema de ponderación que iguala la importancia de los atributos. Utilizan un clasificador kNN. Sus sistemas internos manejan alrededor de 250,000 nuevos archivos PE cada día. Afirmaron que utilizaban un enlace completo, esto significa que su algoritmo para encontrar los grupos podría ser el algoritmo jerárquico aglomerado.
Protección de la nube de Avira [4]: Avira utiliza el análisis de datos grandes para determinar automáticamente si una muestra recién descubierta pertenece a una familia conocida de malware. En cualquier momento dado, están procesando 1.3 millones de actualizaciones de malware en sus servidores en todo el mundo. Solo en un día, sus honeypots de Avira Protection Lab recibirán más de 130,000 nuevas muestras de malware para analizar.
Microsoft Azure Machine Learning [5]: utilizan el aprendizaje automático probabilístico para encontrar patrones en los datos que pueden no haber sido detectados por la técnica determinista más contundente. El algoritmo se ejecuta sin intervención humana y produce un mapa de clases. El mapa muestra agrupaciones populosas, agrupaciones menos populosas y quizás algunos valores atípicos o agrupaciones muy escasamente pobladas. En este punto, se llama a un experto humano para que examine los clústeres y decida si un clúster es un proceso normal o malware.
BitDefender [6]: utiliza varias técnicas de aprendizaje automático (Perceptrons, Neural Networks, Centroids, Binary Decision Tree, Deep Learning, etc.) para varias tareas: filtrado de URL, identificación de archivos maliciosos y clasificación de correos electrónicos.
Symantec usa Cynic [7]
Referencias (no tengo suficiente reputación para ponerlas como enlaces):
[1] usa.kaspersky.com/about-us/press-center/press-releases/2016/Kaspersky_Lab_Number_of_the_Year_2016_323000_Pieces_of_Malware_Detected_Daily
[2] enterprise.comodo.com/valkyrie/
[3] avast.com/technology
[4] blog.avira.com/virus-hunters-catch-bad-guys-part-2/
[5] microsoft.com/itshowcase/Article/Content/618/Improving-network-security-using-big-data-and-machine-learning
[6] businessinsights.bitdefender.com/machine-learning-apt-detection
[7] symantec.com/connect/blogs/myth-busting-next-generation-threat-protection