Plantearé una perspectiva académica en mi pregunta, pero doy la bienvenida a todas y cada una de las observaciones. Por lo tanto, una botnet generaría miles de dominios / día y un atacante real registrará unos pocos, que se utilizarán con cierta probabilidad. El punto es, dado un conjunto de datos de, por ejemplo, un millón de dominios y sin el conocimiento de DGA (algoritmo de generación de dominio), ¿hay alguna técnica / investigación disponible que predice la probabilidad de que un dominio sea un bot generado? Tengo mis propias ideas para hacer una:
- Excluir diccionarios de palabras del diccionario
- Incluir nombres de dominio aparentemente aleatorios / de basura / arbitrariamente grandes
- Compruebe la información de DNS para obtener información de registro posible, etc.
Lamentablemente, no pude encontrar ninguna investigación / texto estándar en esta área. Cualquier información sería útil.