¿Por qué el spam de blog siempre se escribe tan mal?

98

Algunos mensajes de spam nuevos de mi filtro de Wordpress:

  

Hacer preguntas es algo agradable si no lo eres   Entendiendo algo totalmente, salvo que este artículo da buena.   comprensión aún.

y

  

Gracias por cualquier otro blog informativo. ¿Dónde más puedo conseguir?   Ese tipo de información escrita en un medio tan ideal? Tengo una   proyecto en el que simplemente estoy trabajando ahora, y he estado en la mira   fuera por tal información.

¿Es solo que básicamente todo el spam del blog proviene de países que no hablan inglés, o hay algún tipo de decisión táctica sobre el idioma? Lo pregunto porque cuando lo vi por primera vez, pensé que tal vez estaban siendo genuinos pero desarticulados.

    
pregunta Lucas 13.06.2013 - 19:33
fuente

10 respuestas

135

Los spammers están generando automáticamente nuevos comentarios al tomar los comentarios existentes y ejecutarlos a través de un programa de sinónimos que reemplaza las palabras con sinónimos o partes relacionadas del habla. El resultado es una oración que tiene sentido, pero tiene opciones de palabras que ningún hablante nativo haría jamás:

  

¿Dónde más puedo conseguir ...

claramente no es algo que un hablante nativo escribiría, pero

  

¿Dónde más podría estar obteniendo ...

es, y puede transformarse mediante una simple sustitución de pronombres y sinónimos en el texto spam.

De esta manera, incluso si las fuerzas antispam tienen una gran base de datos de comentarios de spam conocidos, los spammers pueden generar un número infinito de nuevos que son plausiblemente ingleses.

Durante mucho tiempo sospeché que este era el caso, pero recientemente obtuve pruebas. Ahora ocasionalmente recibo comentarios que contienen el script de sustitución completo; Será algo así como:

  

No puedo [creer / entender / comprender] el [excelente / superior / sorprendente] [contenido / información / datos] ...

Dado que los spammers probablemente no hablaban inglés para comenzar, no se dieron cuenta de que estaban enviando el script en lugar de la salida.

Si examinas un corpus suficientemente grande de spam, puedes averiguar fácilmente qué algoritmos están usando. Sería un desafío interesante en ingeniería inversa escribir un programa que deduzca los algoritmos utilizados del corpus.

  

Lo pregunto porque cuando lo vi por primera vez, pensé que tal vez estaban siendo genuinos pero desarticulados.

Te engañaron una vez. ¡Probablemente no vuelva a suceder!

El comentarista TildalWave señala:

  

ninguno de los OP de mensajes de spam de muestra publicados respalda ningún producto, o de otro modo promociona cualquier otra causa.

Bueno, déjame darte un ejemplo: aquí hay un comentario que llegó hace unos minutos en mi blog:

user name:  cuisinart compact toaster review
user url:   toasterovenpicks.com
user email: [email protected]
user IP:    37.59.34.218 
Comment contents:
One in particular clue for that bride and groom essential their
own absolutely new everything, actually a surname burned which has a mode,
which render nearly girl thankful recognizing their refreshing surname
therefore distinctively printed.

El producto se promociona en los metadatos del usuario, no en el contenido del comentario. El contenido es solo un intento de superar el filtro de spam. (Sospecho que, en este caso, el texto no es una mutación de un texto existente, sino que se genera mediante un proceso de Markov sobre un corpus de documentos sobre la planificación de la boda).

Obviamente, las fuerzas antispam también están activadas en este caso, por lo que fue en mi filtro de spam. Mi filtro de correo no deseado (akismet) en promedio permite pasar un correo no deseado por cada 705 enviados. Una vez más, eso es lo que buscan los spammers; saben que el 99.9% de su trabajo nunca será visto por nadie. Están tratando de explorar aleatoriamente el espacio de falsos negativos en los filtros de spam, un espacio que se está volviendo muy pequeño.

    
respondido por el Eric Lippert 13.06.2013 - 22:31
fuente
26

El lenguaje puede tener algo que ver con una firma como lo mencionó TidalWave .

Un poco inofensivo spamdexing.

He estado recibiendo algunos de los primeros ejemplos en mi blog. Aunque parece inofensivo, en realidad son spamdexing (un poco de " black hat seo ") al tratar de asociar su cuenta de usuario (y enlaces a sitios web por extensión) con las palabras clave del blog (como decía Xander , es marketing). Cuando haces clic en el enlace, se considera un éxito positivo del blog. Si un blog tiene suficientes resultados positivos para una búsqueda clave, su enlace obtendrá un aumento de +1 en los motores de búsqueda con respecto a la relatividad de las palabras clave. La mayoría de los motores de búsqueda se han dado cuenta de esto e intentan evitarlo con la coincidencia de relevancia en sus fórmulas.

El inconveniente es que si un usuario visita su sitio por algo fuera de tema debido a este spam y deja (rebota) los motores de búsqueda penalizarán su clasificación general (debido a la falta de sustancia), así como su clasificación para la página con el contenido fuera de tema. Si bien no hay mucho que ver con la seguridad de TI en la indexación de spam (a menos que utilicen un sitio infectado como su propia URL), sí afecta negativamente al rendimiento [social] del sitio en general si suficientes spammers hacen esto y derriban a su sitio en la red. clasificaciones.

Con respecto al segundo ejemplo, contiene un gancho para una operación de dos correos no deseados (que se encuentra comúnmente en los foros). El primer póster creará una cuenta y publicará una pregunta que parece una preocupación legítima.

  

... ¿Dónde más puedo obtener ese tipo de información escrita en   ¿Un medio tan ideal? ...

Poco después (dentro de 20 minutos aproximadamente, hasta un par de días), otro póster (del mismo país, por lo general, si no del mismo rango de IP) creará una nueva cuenta y publicará la respuesta, que contiene El enlace correspondiente a la pregunta del póster original. Dado que la mayoría de los moderadores de tableros no eliminan lo que parece una discusión real, su spam engaña a alguien otra vez ... aunque sigue siendo indice de spam. Un ejemplo de estilo de marketing mejor elaborado podría ser:

  

Encontré un gran recurso para [palabras clave aquí] en   [ enlace . Debes echar un vistazo ya que tienen un   mucha información relacionada con [más palabras clave]. Te debería ayudar.

Algunos de los otros trucos que harán es tener una imagen de firma que sea un GIF transparente de solo 1 píxel por 1 píxel y que esté envuelto en una etiqueta <a> . Esto crea un enlace a algún otro sitio web en cualquier lugar donde el póster haya escrito su contenido absurdo. El hecho de que no puedas verlo no significa que no esté allí.

Las amenazas de Spam no tan inofensivas afectan la seguridad del servidor

Algunos de los peores ejemplos de spam en realidad contendrán un enlace a un sitio infectado, o instalarán un javascript keylogger . (He visto el SVG hack utilizado en líneas de firmas para inyectar secuencias de comandos maliciosas.) El keylogger es el que deberá vigilar porque puede capturar el nombre de usuario y la contraseña del blog / administrador del sitio u otro usuario con privilegios elevados cuando intentan iniciar sesión (o cualquier usuario que cree una cuenta) en la misma página para eliminar el correo no deseado. En el mejor de los casos, si el usuario tiene acceso suficiente para ver a otros usuarios, el atacante descargará la lista de direcciones de correo electrónico de los usuarios y enviará mensajes de correo electrónico no deseados a una lista dirigida por el mercado (marketing).

A los nuevos usuarios inocentes se les pueden robar sus credenciales, y como la mayoría de la gente usa Las mismas contraseñas y la misma dirección de correo electrónico en todas partes, ahora sus cuentas en otros lugares pueden verse comprometidas. (Facebook, LinkedIn, etc)

El peor escenario posible, porque la mayoría de los desarrolladores web de los sistemas de CMS no esperan que alguien con "skillz" ingrese al backend a través de uno de estos métodos (confiable), no están haciendo cosas como revisar todo el administrador. formularios para inyecciones de XSS o MySQL (he detectado a algunos de mis desarrolladores que recortan esquinas en este método). Desde la inyección de XSS a SQL, entonces depende de la seguridad de la caja, las limitaciones de las cuentas de usuario (no ejecute Apache como root) y el acceso de lectura / escritura. Como estarían en el CMS, puede asumir que el usuario probablemente pueda escribir cualquier cosa en el cuadro que desee. Elimine la base de datos, infecte el sitio con una puerta trasera ... ahora es un problema de seguridad de TI.

    
respondido por el AbsoluteƵERØ 14.06.2013 - 02:24
fuente
17

No sé si en su caso el texto que informó fue el comentario completo (¿cuál sería su propósito, ya sea como un comentario genuino o como spam / estafa?).

En caso de que no fuera así, y cuando el correo no deseado debe funcionar como preludio de una interacción futura, entonces escribirlo en un inglés deficiente podría hacerse a propósito , como un "control" de una víctima eso es lo suficientemente tonto como para no reconocer de inmediato la estafa y, por lo tanto, vale la pena invertir tiempo.

Fuente: ¿Por qué los estafadores nigerianos dicen que son de Nigeria? por Cormac Herley, Microsoft Research.

    
respondido por el Alberto Santini 14.06.2013 - 01:00
fuente
16

Mi empresa solía hacer "spinning", que como una de las respuestas mencionadas anteriormente está haciendo una búsqueda de tesauro programada y reemplaza el texto. Sin embargo, lo haríamos en múltiples capas complejas.

  1. En realidad empleamos a escritores estadounidenses reales para escribir la copia original.
  2. Esos escritores originales marcarían su propio documento con una sintaxis especial que creamos, marcando palabras, grupos de palabras, frases y oraciones completas, incluidos los sinónimos que consideraron apropiados para cada caso. Esto significaba sinónimos para frases completas que podían intercambiarse sin cambiar el significado. Lo harían en un software de edición de texto que creamos que les proporcionaría sugerencias de autocompletar.
  3. Cada vez que un escritor marca su documento, almacenamos todos sus sinónimos y frases en un diccionario y los usamos para agregar sugerencias al escritor para su próxima asignación.
  4. Pulsa GO en la máquina y gira cientos / miles de variaciones.
  5. Divide bloques de variaciones a nuestro equipo de SEO en Filipinas cuyo único trabajo era encontrar blogs, foros y otros sitios web de relaciones públicas demasiado tontos para bloquearnos.

Interesantemente, nunca automatizamos la parte de publicación real, ya que eso fue lo más fácil de detectar para las máquinas. Un verdadero humano estaba publicando esa basura.

Ah, los viejos tiempos de arruinar Internet para todos.

    
respondido por el Dan Gayle 14.06.2013 - 05:57
fuente
10

Tal vez esto no responda a la pregunta del OP, pero esos mensajes no son para hacer que nadie compre nada.

El punto es crear el número máximo de comentarios con enlaces a páginas o sitios particulares en los que los spammers desean mejorar su PageRank. Esos sitios son donde se llevará a cabo el verdadero trabajo de seducir a compradores potenciales (o piratear computadoras de víctimas potenciales, o ambos).

Es por eso que casi todos los mensajes no deseados tienen al menos un enlace. Y cuando no lo hace, generalmente es un comentario especialmente diseñado ("Un artículo brillante", "Gracias por compartir esto" ...) donde el objetivo es obtener la aprobación del comentario y otorgarle acceso directo al bot sin pasarlo. la cola de moderación. Debido a que en algunos CMS y foros, cuando un usuario alcanza un número mínimo de mensajes aprobados, se 'etiquetará' como de confianza y no tendrá que ser aprobado siempre.

Por lo tanto, el spam no está destinado a los humanos, sino a las máquinas (motores de búsqueda) y los spammers deben hacer todo lo posible para influir en los motores de búsqueda. Por lo tanto, no pierden tiempo en el contenido, ya que ningún humano lo leerá y se concentrará en los mecanismos que hacen que muchos mensajes sean más rápidos y simples.

En una palabra, no eres el objetivo, solo eres un daño colateral.

    
respondido por el ahmed 14.06.2013 - 04:00
fuente
9

Probablemente es una combinación de los dos. Si usan un lenguaje que no tiene un sentido gramatical, es más probable que alguien lo malinterprete como un comentario real en una publicación, ya que intentarán completar los espacios en blanco de una manera que tenga sentido. En última instancia, la mayoría de este tipo de spam trata de difundir enlaces en la web para intentar impactar en los rankings de búsqueda.

Para que los enlaces permanezcan activos, necesitan que sus comentarios se vean genuinos para que sean más difíciles de sacar de los comentarios genuinos. Hacen respuestas de sonido genéricas que "posiblemente" podrían ser válidas con la esperanza de que queden activas.

En otras situaciones, este es el resultado de intentar insertar palabras clave en el comentario para aumentar la asociación del enlace con esas palabras clave.

    
respondido por el AJ Henderson 13.06.2013 - 20:09
fuente
6

Además de las respuestas finas publicadas anteriormente, su pregunta tiene un fuerte sesgo de muestreo.

Solo reconoces las publicaciones de blog de spam mal elaboradas como spam de blog. Nunca reconoces el spam de blog realmente bien diseñado como spam de blog. Por lo tanto, parece que todo el spam del blog está mal diseñado.

AmIRight?

    
respondido por el AllInOne 13.06.2013 - 23:37
fuente
4

Muy a menudo, los blogspammers usan contenido "spinners". Reemplazan las palabras con sinónimos, que deberían funcionar en teoría, pero en realidad hace que el comentario parezca escrito por un niño de 4 años; o alguien que no tenga inglés como primer idioma.

La mayoría de los marcadores de contenido comparten una sintaxis común (ejemplo de la respuesta de Eric Lippert):

I can't [believe/understand/comprehend] the [great/superior/amazing] [content/information/data]...

Esto significa que el selector de contenido elegirá una palabra aleatoria de cada corchete para construir la oración. De esta manera, puede obtener una gran variedad de comentarios similares, sin tener duplicados exactos, lo que hace que sea más difícil para los complementos antispam identificar contenido similar si utilizan una suma de comprobación como md5 para comparar comentarios con el spam anterior.

    
respondido por el iHaveacomputer 14.06.2013 - 02:18
fuente
4

Pueden estar apagando plantillas como esta: enlace , que recientemente se publicó accidentalmente en el sitio de Scott Hanselman: enlace

Como han mencionado otros, todo lo que hay que hacer es escribir una secuencia de comandos para sacar una palabra al azar de las listas entre corchetes.

    
respondido por el servarevitas3 14.06.2013 - 17:37
fuente
1

Se puede decir simplemente que debe conocer el SEO (optimización de motores de búsqueda) TI tiene 2 tipos de técnicas en las principales 1) Black Hat y 2) White Hat

El sombrero blanco hace la manera genuina o el trabajo auténtico.

pero cuando comienza Black Hat, comienza su problema, lo que hacen es crear un número de nombre de usuario, contraseña o lista de blogs abiertos ... siguen publicando contenido según sus requisitos (palabras clave) para que les dará clics internos en su sitio ...

Como la primera respuesta dice que usan software inteligente que entiende el lenguaje parcialmente y crean un párrafo en base a palabras clave determinadas.

Entonces, eso tendrá algún sentido, pero no tendrá ningún sentido en absoluto ... :)

Espero que esto tenga sentido en el contexto de tu pregunta ...

    
respondido por el MarmiK 14.06.2013 - 05:52
fuente

Lea otras preguntas en las etiquetas