Los spammers están generando automáticamente nuevos comentarios al tomar los comentarios existentes y ejecutarlos a través de un programa de sinónimos que reemplaza las palabras con sinónimos o partes relacionadas del habla. El resultado es una oración que tiene sentido, pero tiene opciones de palabras que ningún hablante nativo haría jamás:
¿Dónde más puedo conseguir ...
claramente no es algo que un hablante nativo escribiría, pero
¿Dónde más podría estar obteniendo ...
es, y puede transformarse mediante una simple sustitución de pronombres y sinónimos en el texto spam.
De esta manera, incluso si las fuerzas antispam tienen una gran base de datos de comentarios de spam conocidos, los spammers pueden generar un número infinito de nuevos que son plausiblemente ingleses.
Durante mucho tiempo sospeché que este era el caso, pero recientemente obtuve pruebas. Ahora ocasionalmente recibo comentarios que contienen el script de sustitución completo; Será algo así como:
No puedo [creer / entender / comprender] el [excelente / superior / sorprendente] [contenido / información / datos] ...
Dado que los spammers probablemente no hablaban inglés para comenzar, no se dieron cuenta de que estaban enviando el script en lugar de la salida.
Si examinas un corpus suficientemente grande de spam, puedes averiguar fácilmente qué algoritmos están usando. Sería un desafío interesante en ingeniería inversa escribir un programa que deduzca los algoritmos utilizados del corpus.
Lo pregunto porque cuando lo vi por primera vez, pensé que tal vez estaban siendo genuinos pero desarticulados.
Te engañaron una vez. ¡Probablemente no vuelva a suceder!
El comentarista TildalWave señala:
ninguno de los OP de mensajes de spam de muestra publicados respalda ningún producto, o de otro modo promociona cualquier otra causa.
Bueno, déjame darte un ejemplo: aquí hay un comentario que llegó hace unos minutos en mi blog:
user name: cuisinart compact toaster review
user url: toasterovenpicks.com
user email: [email protected]
user IP: 37.59.34.218
Comment contents:
One in particular clue for that bride and groom essential their
own absolutely new everything, actually a surname burned which has a mode,
which render nearly girl thankful recognizing their refreshing surname
therefore distinctively printed.
El producto se promociona en los metadatos del usuario, no en el contenido del comentario. El contenido es solo un intento de superar el filtro de spam. (Sospecho que, en este caso, el texto no es una mutación de un texto existente, sino que se genera mediante un proceso de Markov sobre un corpus de documentos sobre la planificación de la boda).
Obviamente, las fuerzas antispam también están activadas en este caso, por lo que fue en mi filtro de spam. Mi filtro de correo no deseado (akismet) en promedio permite pasar un correo no deseado por cada 705 enviados. Una vez más, eso es lo que buscan los spammers; saben que el 99.9% de su trabajo nunca será visto por nadie. Están tratando de explorar aleatoriamente el espacio de falsos negativos en los filtros de spam, un espacio que se está volviendo muy pequeño.