Se ha publicado un buen artículo llamado por Martijn Sprengers.
Intentaré hacer TL; DR:
Los filtros de spam bayesianos intentan decidir si un correo electrónico es spam o no al mirar las palabras clave en un correo electrónico. Lo que hace es revisar las palabras presentes en el correo electrónico normal y de spam y actualizar las puntuaciones de cada palabra. Estas puntuaciones se utilizan para deducir si un correo electrónico es spam o no al hacer una puntuación basada en la puntuación general de las palabras presentes en el correo electrónico.
Las palabras se vuelven a calificar, lo que significa que si "Viagra" aparece en varios correos electrónicos normales, obtendrá una puntuación más baja con el tiempo. Los spammers abusan de esto generando correos electrónicos con varias palabras de bajo puntaje, que comúnmente se encuentran en correos electrónicos legítimos y añadiendo una sola palabra mala. Debido a que el puntaje del correo electrónico en general se considerará bueno, "Viagra" obtendrá un puntaje más bajo con el tiempo, lo que lo convierte en una palabra legítima y hace que el correo electrónico no deseado pase a través de filtros de correo no deseado.
Hay tres ataques de los que habla el documento:
Palabras aleatorias: Este método de ataque se basa en la investigación de Gregory et
Alabama. [6]. Puede ser visto como un ataque estadístico débil, porque usa
Datos puramente aleatorios para agregar a los correos electrónicos no deseados.
Palabras comunes: Este método de ataque se basa en la investigación de Stern et al. [7]. Añadieron palabras comunes en inglés a los correos electrónicos no deseados en orden.
Para confundir el filtro de spam. Este ataque puede ser visto como más fuerte.
ataque estadístico que el método de palabras aleatorias, porque los datos utilizados
es menos aleatorio y contiene palabras que tienen más probabilidades de estar en
Correos electrónicos que las palabras agregadas con el ataque anterior.
Frases de jamón: Este ataque se desarrolla en esta investigación y se compara con los otros dos. Se basa en una enorme colección de jamón.
correos electronicos De esa colección, solo el jamón envía correos electrónicos con la más baja.
Probabilidad combinada se utilizan como veneno. A continuación se agrega el correo electrónico de jamón.
al final del correo spam original. La mayoría de la gente lee hacia abajo, así que
Se mantiene la efectividad del mensaje. Esto también es un fuerte
ataque estadístico, tal vez incluso más fuerte que el ataque de las palabras comunes,
porque las palabras son aún menos aleatorias.
Aspectos destacados de la conclusión del documento:
Desde el punto de vista de un spammer, la técnica de "HamPhrases" parece funcionar mejor. Disminuye el rendimiento del filtro de spam. ... Las técnicas "Aleatorio" y "Palabras comunes" parecen tener una puntuación peor desde el punto de vista de los spammers. ... Cuando entrenamos el filtro de spam en esos métodos de veneno, el rendimiento es incluso mejor de lo normal. ...
Sin embargo, el método HamPhrases utilizado en esta investigación es un poco engañoso. Esto se debe a que el algoritmo está disponible para los correos electrónicos de correo no deseado y de correo no deseado que utiliza el filtro de correo no deseado para las pruebas y la capacitación. Los spammers reales no tienen los correos electrónicos de usuarios reales.