Bases de datos con spam, ejemplos de correo electrónico de phishing [duplicado]

4

Estoy trabajando en un pequeño proyecto para ver si puedo predecir la probabilidad de que un correo electrónico sea un riesgo de seguridad (phishing, spam, ingeniería social, etc.).

Para hacer esto, necesito una serie de ejemplos que pueda usar para entender el lenguaje "spam", "phishing" o "ingeniero social".

Estoy planeando centrarme en los correos electrónicos en inglés.

¿Hay alguna base de datos que contenga ejemplos de:
: correo electrónico no deseado (mi casilla de correo no deseado es muy variada y podría tener algunos correos electrónicos válidos allí).
- correos electrónicos de phishing (o spear phishing)
- Correos electrónicos marcados como ataques de ingeniería social.

    
pregunta sir_k 14.03.2016 - 11:21
fuente

1 respuesta

1

Suponiendo que estás usando algún tipo de aprendizaje automático (e incluso si no lo estás), también necesitarás un corpus de distracción (en la industria antispam, llamamos al correo deseado "ham" porque es más fácil decir "no spam"), y ese será, por lejos, su mayor desafío.

Un punto de partida en su camino para atraer spam podría ser esta antigua solicitud de Desbordamiento de Pila para una Conjunto de capacitación sobre filtros de spam disponibles públicamente o este antiguo desbordamiento de pila Lluvia de ideas: ¿Cómo crear rápidamente un honeypot para el spam masivo? Si bien ambos están fuera de tema para el desbordamiento de pila, podría no ser el caso aquí.

Otro punto de partida es el corpus público de SpamAssassin , aunque en este momento tiene más de 10 años.

También hay otras técnicas para atraer spam y jamón. Busque sembrando una trampa de spam y encontrará un montón de consejos de expertos en antispam y < a href="https://en.wikipedia.org/wiki/Email_service_provider_%28marketing%29"> proveedores de servicios de correo electrónico .

En términos generales, es un gran esfuerzo recopilar un buen corpus que te ayude a predecir cómo filtrar el spam nuevo. Es significativamente más difícil recopilar muestras adecuadas de phishing, fraude de tarifa anticipada y otro spam dirigido. Ya mencioné que la recolección de jamón no a granel también será un desafío, pero si está tratando de calibrar para capturar el phishing, deberá asegurarse de que su corpus de jamón contenga una gran cantidad de correo legítimo no comercial relacionado con las finanzas y mantenimiento de la cuenta.

Su mejor apuesta es asociarse con alguien de la industria que ya tenga buenos datos.

Esto podría incluir comunidades de software libre como la de SpamAssassin. Si puede crear una instancia de su trabajo como una combinación lógica de expresiones regulares (reglas de SpamAssassin), puede obtener el sistema de control de calidad de SpamAssassin para ejecutar sus combinaciones contra sus propios cuerpos. Esto requerirá la licencia de su trabajo como Apache License v2 para que SpamAssassin pueda utilizarlo.

El Grupo de trabajo contra el phishing (APWG) tiene muchas y muchas muestras de phishing, aunque es posible que tenga que pagar por ellas (a menos que ¿Estás trabajando en un documento para su Simposio sobre el tiempo de la guerra ?)

Project Honeypot también tiene una buena colección de spam (aunque no tendrán jamón). Es posible que puedas trabajar con ellos.

    
respondido por el Adam Katz 15.03.2016 - 02:50
fuente

Lea otras preguntas en las etiquetas