¿Ya los correos electrónicos ocultos engañan a los raspadores web? [duplicar]

25

Es una práctica en línea común que, en lugar de escribir su correo electrónico como [email protected] , la gente lo escriba como someone AT example.com en un intento de dificultar a los usuarios de la red encontrar su dirección de correo electrónico en un sitio web.

¿Es esto incluso más efectivo? Me imagino que cualquiera que busque en la web correos electrónicos podría buscar un patrón como ese y transformarlo en una dirección de correo electrónico.

Estoy seguro de que algunas estrategias para ocultar la dirección de correo electrónico son más efectivas que otras, ya que no todas las combinaciones que son legibles para un ser humano podrían contabilizarse en un programa, pero sí algunas como la que describo anteriormente. encontrado tan fácilmente.

Si intenta ofuscar un correo electrónico, ¿qué tipo de estrategias podrían usarse para asegurar que un lector humano pueda entender pero que un programa no lo haría? ¿No podría seguir actualizándose el raspador para comprender nuevos patrones a medida que su autor los encuentra?

    
pregunta DLeh 18.02.2015 - 21:23
fuente

5 respuestas

18

Realmente tienes varios métodos, por supuesto, debes considerar que los bots que recopilan este contenido son esencialmente raspando las páginas que se encuentran y buscando patrones que parecen direcciones de correo electrónico. Como usted dice, es una carrera armamentista y no hay nada que impida que las personas que desarrollan estos raspadores implementen estos métodos (espere, ¿es por eso que pregunta?)

En la mayoría de los casos, querrá evitar realmente crear un hipervínculo fuera de su dirección de correo electrónico, y ciertamente desea evitar usar mailto: - eso es básicamente anunciar a cualquiera que lea la página " Hola, soy una dirección de correo electrónico ".

Comencemos de agradable y simple, espaciado:

m y e m a i l @ m y d o m a i n . c o m

Obviamente es una dirección de correo electrónico para un humano, parece un montón de letras aleatorias con espacios para un raspador. ¿No te gusta el espacio? Mucho menos común pero mucho más infalible es convertir tu dirección de correo electrónico en una imagen. Todavía es legible para los humanos, pero no va a ser algo que la mayoría de los rastreadores de correo electrónico estén buscando, y mucho menos que puedan analizar.

¿Qué hay de convertir tu puntuación (@ y punto) en sus equivalentes HTML ( @ y . respectivamente)?

myemail@mydomain.com

Esto aún parece una dirección de correo electrónico cuando se procesa con el navegador, pero no va a ser tan difícil trabajar desde el punto de vista del raspado ya que solo buscaría . y @ - pero ¿por qué detenerse ahí? ¿Por qué no ir hasta el final y simplemente codificar la dirección de correo electrónico completa? Esto se puede hacer fácilmente con una herramienta como Rumkin's Mailto Encoder , de repente, su dirección de correo electrónico se ve así:

myema%69l@my%64%6fma%69n%2e%63om

Esto aún se procesa como cabría esperar en un navegador, pero básicamente es un engaño en cuanto a cualquier raspador que no tenga en cuenta la codificación.

También puedes hacer esto con CSS si estás tan inclinado con algo como esto:

<style>
  my-email::after { content: attr(data-domain); } 
  my-email::before { content: attr(data-user); }
</style>

<my-email data-user="myemail" data-domain="mydomain.com">@</my-email>

O, como ya se mencionó en Desbordamiento de pila , simplemente puede usar JavaScript.

    
respondido por el kalina 18.02.2015 - 21:40
fuente
8

Ocultar tu correo electrónico usando javascript solo puede llegar hasta ahora. Hay dos tipos de motores de raspado que se utilizan para recopilar datos de un sitio web.

Clásico: El raspador clásico es simplemente hacer una solicitud GET en la url y luego analizar el HTML que se devuelve desde el servidor.

  • Ventaja: tiene la ventaja de una rápida recopilación de datos y un mayor rendimiento tanto desde el punto de vista del ancho de banda como del procesador.
  • Desventaja: En realidad, no carga la página como lo hace un navegador. Como no hay ningún DOM cargado, cualquier contenido basado en javascript no estará disponible para el raspador. Esto significa que cualquiera de los métodos mencionados por Flyk funcionará muy bien al combatir estos raspadores.

Basado en navegador: Los raspadores basados en navegador son una nueva generación de raspadores y permiten que el motor cargue la página en un "navegador web". (Algunos de estos son sin cabeza, phantom.js )

  • Ventaja: Este tipo de raspador tiene la capacidad de renderizar efectivamente una página web y raspar los resultados exactamente como se mostrarían a un usuario. Esto significa que este tipo de raspador podría leer cualquier correo electrónico que haya sido codificado con javascript.

  • Desventaja: Estos raspadores también son mucho más complejos de crear y requieren un período de carga más largo y más ancho de banda antes de poder raspar una página. Por estas razones, muchos raspadores aún utilizan el estilo clásico de raspado.

Al final, sería mejor usar javascript para codificar tu dirección de correo electrónico en lugar de simplemente escribirla en texto sin formato. Si realmente desea la mejor protección para su correo electrónico, debe utilizar el método para crear una imagen de su dirección de correo electrónico.

Las imágenes se pueden leer utilizando OCR, pero la complejidad está mucho más allá de la mayoría de los motores de raspado.

    
respondido por el mcroo20 18.02.2015 - 23:55
fuente
2

Una idea bastante infalible sería incluir la dirección de correo electrónico en una imagen frente a un texto. Me imagino que este método podría ser derrotado por un programa que puede leer texto en imágenes, pero sería mucho más difícil de vencer que un texto simple.

    
respondido por el Jonathan 18.02.2015 - 21:48
fuente
0
  

Si intenta ofuscar un correo electrónico, ¿qué tipo de estrategias podrían usarse para garantizar que un lector humano pueda entender pero un programa no?

Una solución alternativa (que no muestra el correo electrónico en la página) es utilizar un formulario de contacto con algún mecanismo de captcha para evitar el envío masivo de correos.

Puede agregar a esto una respuesta automática de una dirección de correo electrónico real (una que se puede guardar como un contacto).

    
respondido por el WoJ 19.02.2015 - 09:11
fuente
-2

Para ser justos, el método más seguro es usar una imagen de su dirección de correo electrónico como se indicó anteriormente.

El principal inconveniente de esto es que si los usuarios tienen imágenes deshabilitadas, no lo verán. Sin embargo, esto se puede contrarrestar en la etiqueta HTML img alt="" alt, colocando su correo electrónico como caracteres codificados en HTML: por ejemplo, &#109;&#121;&#101;ma%69&#108;&#64;my%64%6fma%69&#110;%2e%63&#111;m .

Otro inconveniente sería que los usuarios no pueden hacer clic en esto ... simplemente envolver la imagen en un enlace mailto , pero eso anularía totalmente la dirección de correo electrónico que se esconde de los usuarios.

    
respondido por el Connor Gurney 19.02.2015 - 12:06
fuente

Lea otras preguntas en las etiquetas