He construido un modelo de aprendizaje automático para detectar si un usuario que accede a un servidor o una red es malicioso. Me gustaría validar el modelo usándolo en los datos de capacitación o validación en seguridad cibernética.
El modelo de aprendizaje automático es un modelo de agrupamiento que funciona detectando anomalías en los datos. Espero encontrar datos que documenten los diferentes tipos de acceso de usuarios a un servidor o red. Si es así, un experto en la materia puede mirar más de cerca los grupos marcados como anómalos para verificar si se trata de ataques o no.
Dado que el modelo de aprendizaje automático es un modelo de agrupamiento, no se requieren datos de entrenamiento. En cambio, el comportamiento normal en el conjunto de datos se establece y se supone que no es malicioso, y se plantea la hipótesis de que los datos anómalos probablemente contengan ataques maliciosos.
Dado que el modelo de aprendizaje automático no detecta tipos específicos de ataques, sino que agrupa diferentes tipos de anomalías, no importa qué tipo de datos se presentan (netflow, pcap, registros del servidor, etc.). Solo espero poder encontrar una gran variedad de tipos de conjuntos de datos para probar.
El único problema es que no tengo un conjunto de datos para usar. ¿Hay conjuntos de datos públicos grandes que pueda usar para validar mi modelo? El conjunto de datos debe marcar los ataques con el tipo de ataque que se intentó.