¿Cómo pueden las compañías de antivirus analizar la gran cantidad de muestras que reciben?

3

Las compañías de antivirus recopilan muestras de sus productos o los usuarios pueden enviarlas directamente a través de formularios en sus sitios web. El número de muestras recolectadas es muy grande. ¿Cómo puede un grupo de analistas analizar un volumen tan grande de malware?

Leí varios artículos hechos por investigadores que describen diferentes técnicas. Una técnica es agrupar malwares similares y analizar solo un "representante" para cada clúster.

¿Cuáles son los métodos realmente utilizados por las compañías de AV?

    
pregunta RobotMan 08.02.2017 - 15:37
fuente

2 respuestas

1

Ok, he encontrado la respuesta. Las empresas de AV utilizan técnicas de clustering / clasificación en sus herramientas de análisis propietarias. Estos son algunos ejemplos:

Kaspersky usa Astraea [1]: un sistema de análisis de malware basado en aprendizaje automático. Astraea analiza automáticamente las notificaciones de las computadoras protegidas y ayuda a descubrir amenazas previamente desconocidas. Al usar los metadatos de las amenazas (como la edad, el origen, el nombre del archivo, la ruta del archivo y más), el sistema puede detectar amenazas sin información sobre el contenido del archivo (¿solo características estáticas?).

Comodo usa Valkyrie [2]: es una plataforma de análisis de archivos basada en la nube que proporciona análisis estático, dinámico e incluso de expertos humanos para los archivos conocidos y desconocidos enviados. Valkyrie procesa más de 200 millones de envíos de archivos desconocidos cada día. Algunas de las técnicas de aprendizaje automático que emplea Valkyrie incluyen máquinas de vectores de soporte, bayes ingenuos, árboles de decisión y clasificadores de bosques aleatorios. Además, Valkyrie empleará análisis discriminante lineal, descensos de gradiente estocásticos, modelos de Markov ocultos y redes neuronales, solo para nombrar algunos.

Avast usa Medusa [3]: un sistema de clasificación alimentado por GPU. Cada nodo de Medusa utiliza dos o cuatro GPU de Nvidia. Cada muestra está representada por un vector de características de tamaño constante que consta de aproximadamente 100 atributos. Teniendo en cuenta la naturaleza de los atributos, terminaron con varios operadores de distancia y un esquema de ponderación que iguala la importancia de los atributos. Utilizan un clasificador kNN. Sus sistemas internos manejan alrededor de 250,000 nuevos archivos PE cada día. Afirmaron que utilizaban un enlace completo, esto significa que su algoritmo para encontrar los grupos podría ser el algoritmo jerárquico aglomerado.

Protección de la nube de Avira [4]: Avira utiliza el análisis de datos grandes para determinar automáticamente si una muestra recién descubierta pertenece a una familia conocida de malware. En cualquier momento dado, están procesando 1.3 millones de actualizaciones de malware en sus servidores en todo el mundo. Solo en un día, sus honeypots de Avira Protection Lab recibirán más de 130,000 nuevas muestras de malware para analizar.

Microsoft Azure Machine Learning [5]: utilizan el aprendizaje automático probabilístico para encontrar patrones en los datos que pueden no haber sido detectados por la técnica determinista más contundente. El algoritmo se ejecuta sin intervención humana y produce un mapa de clases. El mapa muestra agrupaciones populosas, agrupaciones menos populosas y quizás algunos valores atípicos o agrupaciones muy escasamente pobladas. En este punto, se llama a un experto humano para que examine los clústeres y decida si un clúster es un proceso normal o malware.

BitDefender [6]: utiliza varias técnicas de aprendizaje automático (Perceptrons, Neural Networks, Centroids, Binary Decision Tree, Deep Learning, etc.) para varias tareas: filtrado de URL, identificación de archivos maliciosos y clasificación de correos electrónicos.

Symantec usa Cynic [7]

Referencias (no tengo suficiente reputación para ponerlas como enlaces):

[1] usa.kaspersky.com/about-us/press-center/press-releases/2016/Kaspersky_Lab_Number_of_the_Year_2016_323000_Pieces_of_Malware_Detected_Daily

[2] enterprise.comodo.com/valkyrie/

[3] avast.com/technology

[4] blog.avira.com/virus-hunters-catch-bad-guys-part-2/

[5] microsoft.com/itshowcase/Article/Content/618/Improving-network-security-using-big-data-and-machine-learning

[6] businessinsights.bitdefender.com/machine-learning-apt-detection

[7] symantec.com/connect/blogs/myth-busting-next-generation-threat-protection

    
respondido por el RobotMan 09.02.2017 - 17:37
fuente
0
  

¿Cómo puede un grupo de analistas analizar un volumen tan grande de malware?

La respuesta corta es que no pueden y no hay una bala de plata. Por ejemplo, la primera muestra de Stuxnet se recopiló alrededor de enero de 2010 , mientras Stuxnet no se descubrió hasta el junio de 2010 .

Las compañías de AV son realmente buenas en la recolección de muestras, pero decidir cuáles analizar es un problema que aún no se ha resuelto por completo. Entonces, una pregunta relevante es cómo elegir qué muestras analizar. Aquí es donde entran en juego todos los diferentes métodos de clasificación de muestras como interesantes para el análisis. Muchos de ellos se enumeran en la respuesta anterior.

    
respondido por el Kaffekoppen 05.12.2017 - 14:58
fuente

Lea otras preguntas en las etiquetas