¿Por qué los datos de entrenamiento de detección de intrustion no supervisados basados en anomalías deben ser normales o menos ruidosos?

0

Recientemente leí un artículo que decía que "los algoritmos tradicionales de detección de anomalías requieren un conjunto de datos puramente normales a partir de los cuales entrenan a su modelo" [1]. Pero como en K-means, u otros algoritmos de agrupación no supervisados, ¿qué significa esto? ¿Cómo funcionan si solo hay un cluster? Su punto es que pueden agrupar diferentes clases de datos sin etiquetar.

Otro documento dice que hay dos supuestos en las técnicas no supervisadas: 1. debería haber mucho más tráfico normal que tráfico de ataque, y 2. el tráfico de ataque debería ser diferente al tráfico normal [2]. ¿Por qué? K-means puede separar dos conjuntos del mismo número de elementos.

Referencias:

[1] Página 2 de " Detección de intrusiones con datos sin etiquetar mediante agrupación ", Leonid Portnoey, Eleazar Eskin, Sal Stolfo, DMSA 2001.

[2] Sección 3.3 de Jose F. Nieves, " Agrupación de datos para detección de anomalías en la red Detección de intrusiones ", Research Alliance in Math and Science, 2009.

    
pregunta Yasser 18.11.2012 - 12:55
fuente

1 respuesta

2

Esta es una pregunta desconcertante. La explicación se proporciona allí mismo en el documento, en algunos casos justo al lado de las citas que proporcionó. Tal vez valga la pena volver a leer los documentos por segunda vez, ya que parece que te has perdido algunos detalles en el primer pase.

En la primera cita ("los algoritmos tradicionales de detección de anomalías requieren ..."):

  • Bueno, así es como funcionan los algoritmos tradicionales de detección de anomalías. Esos algoritmos funcionan al comenzar con un conjunto de entrenamiento de tráfico normal, y luego usan el conjunto de entrenamiento para construir un modelo de cómo se ve el tráfico normal. Para que esto funcione correctamente, necesita una gran colección de tráfico normal. Como se indica en el documento en la siguiente oración, "si los datos contienen algunas intrusiones ocultas dentro de los datos de entrenamiento, es posible que el algoritmo no detecte instancias futuras de estos ataques porque asumirá que son normales". Si desea más detalles sobre cómo funcionan estos algoritmos, entonces lo mejor sería leer algunos documentos que brinden ejemplos de algoritmos de este formulario.

En la segunda cita (supuestos en técnicas no supervisadas):

  • Creo que es obvio por qué debemos asumir que el tráfico de ataque se ve diferente al tráfico normal. Si tuvieran el mismo aspecto, no tendríamos forma de detectar el tráfico de ataques.

  • En cuanto a por qué la técnica no supervisada de Nieves necesita que el tráfico legítimo sea mucho más común que el tráfico de ataque: esto se explica en la Sección 4.4 del documento. Es porque el papel asume que los grupos pequeños representan el tráfico de ataques. Sin esta suposición, no está claro cómo podríamos saber cuál del tráfico en nuestro conjunto de entrenamiento fue normal y cuál fue el tráfico de ataque, sin etiquetas. Recuerde, el documento asume que tenemos un conjunto de capacitación con mucho tráfico, que contiene una mezcla de tráfico normal y de ataque, y no tenemos ninguna etiqueta que nos indique cuál de los datos del conjunto de capacitación es normal y cuál es malicioso.

    Como explica el documento, "En base a nuestra suposición de que una red real contiene muchas más conexiones normales que ataques, [consideramos] que los grupos más pequeños contienen ataques y los grupos más grandes que [...] contienen conexiones normales o buenas "(pequeños ajustes a la gramática para que sea más claro). En otras palabras, así es como funciona la propuesta de Nieves. Por supuesto, no hay nada que diga que esta es la única forma posible de detectar la intrusión, pero da una explicación de por qué Nieves optó por probar el esquema particular que hizo.

Mi respuesta anterior:

Es difícil saberlo sin contexto (debería haber proporcionado un enlace o una cita al documento específico al que se refiere). Sin eso, solo podemos adivinar.

Es posible que se refieran a la diferencia entre aprendizaje supervisado y aprendizaje no supervisado . En el aprendizaje supervisado, asumimos que tenemos un gran conjunto de capacitación que contiene muchos paquetes, y cada paquete está etiquetado como 'malicioso' o 'legítimo'.

En el aprendizaje no supervisado, asumimos que tenemos un gran conjunto de datos que contiene muchos paquetes, pero ninguno de ellos está etiquetado. Si no tiene etiquetas para los datos de capacitación, todo lo que puede hacer es agrupar los datos en uno o más grupos.

Finalmente, hay una situación más que es común para los IDS basados en anomalías: se nos da un conjunto de capacitación grande que contiene muchos paquetes, y se supone que todo en este conjunto de capacitación es legítimo (no malicioso) y es representativo de lo normal. Tráfico no malicioso. Entonces, uno puede tratar de construir un modelo de cómo se ve el tráfico normal; durante la operación, si ve algún paquete que se desvíe del modelo, podría tratarse de un ataque. Este es el concepto básico de detección de anomalías. Hay muchas formas de crear un modelo de tráfico normal, pero una posibilidad es usar la agrupación en clústeres (por ejemplo, K-means) para agrupar el tráfico normal en uno o más clústeres; durante la operación, se supone que cualquier paquete en o cerca de uno de esos clústeres es tráfico normal y no malicioso. Si esto es lo que está pasando, puede ver que esto funciona incluso si solo hay un clúster.

Si tuviera que hacer una conjetura, mi conjetura estaría en la última explicación. Pero sin una cita en papel, es difícil decirlo con certeza.

P.S. No importa qué técnica se use, es de esperar que pueda ver por qué es importante que las anomalías (es decir, el tráfico malicioso) difieran del tráfico normal. Si el tráfico malicioso fuera igual al tráfico normal, no tendría ninguna esperanza de detectarlo. Y, de hecho, la definición completa de una anomalía es "algo que es diferente de lo normal", por lo que para que la detección de anomalías sea útil en la detección de ataques, debemos asumir que el tráfico malicioso es anómalo (diferente del tráfico normal).

    
respondido por el D.W. 18.11.2012 - 20:10
fuente

Lea otras preguntas en las etiquetas