Esta es una pregunta desconcertante. La explicación se proporciona allí mismo en el documento, en algunos casos justo al lado de las citas que proporcionó. Tal vez valga la pena volver a leer los documentos por segunda vez, ya que parece que te has perdido algunos detalles en el primer pase.
En la primera cita ("los algoritmos tradicionales de detección de anomalías requieren ..."):
- Bueno, así es como funcionan los algoritmos tradicionales de detección de anomalías. Esos algoritmos funcionan al comenzar con un conjunto de entrenamiento de tráfico normal, y luego usan el conjunto de entrenamiento para construir un modelo de cómo se ve el tráfico normal. Para que esto funcione correctamente, necesita una gran colección de tráfico normal. Como se indica en el documento en la siguiente oración, "si los datos contienen algunas intrusiones ocultas dentro de los datos de entrenamiento, es posible que el algoritmo no detecte instancias futuras de estos ataques porque asumirá que son normales". Si desea más detalles sobre cómo funcionan estos algoritmos, entonces lo mejor sería leer algunos documentos que brinden ejemplos de algoritmos de este formulario.
En la segunda cita (supuestos en técnicas no supervisadas):
-
Creo que es obvio por qué debemos asumir que el tráfico de ataque se ve diferente al tráfico normal. Si tuvieran el mismo aspecto, no tendríamos forma de detectar el tráfico de ataques.
-
En cuanto a por qué la técnica no supervisada de Nieves necesita que el tráfico legítimo sea mucho más común que el tráfico de ataque: esto se explica en la Sección 4.4 del documento. Es porque el papel asume que los grupos pequeños representan el tráfico de ataques. Sin esta suposición, no está claro cómo podríamos saber cuál del tráfico en nuestro conjunto de entrenamiento fue normal y cuál fue el tráfico de ataque, sin etiquetas. Recuerde, el documento asume que tenemos un conjunto de capacitación con mucho tráfico, que contiene una mezcla de tráfico normal y de ataque, y no tenemos ninguna etiqueta que nos indique cuál de los datos del conjunto de capacitación es normal y cuál es malicioso.
Como explica el documento, "En base a nuestra suposición de que una red real contiene muchas más conexiones normales que ataques, [consideramos] que los grupos más pequeños contienen ataques y los grupos más grandes que [...] contienen conexiones normales o buenas "(pequeños ajustes a la gramática para que sea más claro). En otras palabras, así es como funciona la propuesta de Nieves. Por supuesto, no hay nada que diga que esta es la única forma posible de detectar la intrusión, pero da una explicación de por qué Nieves optó por probar el esquema particular que hizo.
Mi respuesta anterior:
Es difícil saberlo sin contexto (debería haber proporcionado un enlace o una cita al documento específico al que se refiere). Sin eso, solo podemos adivinar.
Es posible que se refieran a la diferencia entre aprendizaje supervisado y aprendizaje no supervisado . En el aprendizaje supervisado, asumimos que tenemos un gran conjunto de capacitación que contiene muchos paquetes, y cada paquete está etiquetado como 'malicioso' o 'legítimo'.
En el aprendizaje no supervisado, asumimos que tenemos un gran conjunto de datos que contiene muchos paquetes, pero ninguno de ellos está etiquetado. Si no tiene etiquetas para los datos de capacitación, todo lo que puede hacer es agrupar los datos en uno o más grupos.
Finalmente, hay una situación más que es común para los IDS basados en anomalías: se nos da un conjunto de capacitación grande que contiene muchos paquetes, y se supone que todo en este conjunto de capacitación es legítimo (no malicioso) y es representativo de lo normal. Tráfico no malicioso. Entonces, uno puede tratar de construir un modelo de cómo se ve el tráfico normal; durante la operación, si ve algún paquete que se desvíe del modelo, podría tratarse de un ataque. Este es el concepto básico de detección de anomalías. Hay muchas formas de crear un modelo de tráfico normal, pero una posibilidad es usar la agrupación en clústeres (por ejemplo, K-means) para agrupar el tráfico normal en uno o más clústeres; durante la operación, se supone que cualquier paquete en o cerca de uno de esos clústeres es tráfico normal y no malicioso. Si esto es lo que está pasando, puede ver que esto funciona incluso si solo hay un clúster.
Si tuviera que hacer una conjetura, mi conjetura estaría en la última explicación. Pero sin una cita en papel, es difícil decirlo con certeza.
P.S. No importa qué técnica se use, es de esperar que pueda ver por qué es importante que las anomalías (es decir, el tráfico malicioso) difieran del tráfico normal. Si el tráfico malicioso fuera igual al tráfico normal, no tendría ninguna esperanza de detectarlo. Y, de hecho, la definición completa de una anomalía es "algo que es diferente de lo normal", por lo que para que la detección de anomalías sea útil en la detección de ataques, debemos asumir que el tráfico malicioso es anómalo (diferente del tráfico normal).