¿Cómo hace el seguimiento de wsj.com a los usuarios para encontrar cuántos artículos he leído?

1

Estaba explorando cómo los sitios web rastrean a los usuarios y cómo se implementan los paywalls. WSJ.com tiene las mejores formas de detectar usuarios que han leído contenido (lo cual no puedo averiguar cómo lo han hecho).

Los mecanismos estándar conocidos para rastrear a los usuarios (para colocar un muro de pago) son con

  1. Parámetros de solicitud (incluidos los encabezados de referencia)
  2. Cookies / Almacenamiento local / Almacenamiento de archivos
  3. Navegación privada o navegador diferente (relacionado con las cookies)
  4. encabezados de ETag (forma menos conocida de seguimiento de usuarios)
  5. direcciones IP
  6. WebRTC / Service Workers (que se ejecutan en segundo plano)
  7. Relacionado el almacenamiento en caché del certificado SSL (leer un artículo, no estaba claro cómo se hace)
  8. Información de huellas dactilares del navegador enviada

Con respecto a wsj.com, la página carga toneladas de javascript de casi 10s de dominios. Su certificado SSL es compartido por decenas de sitios web (esto podría deberse a que utilizan Akamai para servir contenido)

Me preocupa cómo un sitio web me está rastreando en los navegadores, aunque tengo (casi) una pizarra limpia     

pregunta Sairam 02.03.2017 - 09:06
fuente

1 respuesta

2

Si tuviera que implementar un muro de pagos, probablemente optaría por una combinación de los métodos que mencionas.

Por ejemplo, las cookies funcionarán bien para muchos usuarios, y es eficiente, por lo que sería la primera "línea de defensa": si recibiera una cookie de un cliente, la usaría para permitir o denegar entrada.

Si no recuperaba una cookie, podría emplear ETags, y si eso tampoco funcionaba, recurriría a las huellas digitales del navegador en combinación con la coincidencia de direcciones IP de origen difuso.

La toma de huellas dactilares del navegador es muy efectiva (consulte Panopticlick de la EFF para ver una demostración) cuando javascript está habilitado. Producirá falsos positivos, pero si lo combina con un vistazo al bloqueo de la dirección IP de quien proviene la conexión, será muy preciso. Tenemos una gran cantidad de computadoras basadas en una imagen de instalación en el trabajo, por lo que supondría que tienen la misma huella digital del navegador, pero después de unas semanas de uso, realicé una comprobación preliminar y varias huellas digitales habían cambiado. No estoy seguro de por qué. Tal vez se debió a la instalación de software adicional, que instaló fuentes adicionales en la máquina.

Lo haría en este orden porque las cookies son la forma estándar de hacerlo, los etags son un tanto disimulados y las huellas dactilares son las últimas, porque puedo tomar decisiones falsas con las huellas dactilares que afectan a los clientes inocentes. Aún así, sería fácil permitir el acceso de víctimas inocentes: si excluyo a alguien, simplemente mostraría un mensaje que, si consideraban que el mensaje era erróneo, deberían aceptar cookies de mi dominio en el futuro.

Puede averiguar cómo lo hace WSJ prohibiendo todas las cookies. Si WSJ todavía lo identifica, no lo hace únicamente con cookies. Haga lo mismo para el almacenamiento local. Luego, instala un complemento que le permite bloquear los encabezados relacionados con ETag y ver si todavía lo identifican. Si lo hacen, deshabilite Javascript. Si eso no ayuda, juegue con el cambio de los valores de otros encabezados, como el encabezado Aceptar, etc.

    
respondido por el Pascal 02.03.2017 - 10:30
fuente

Lea otras preguntas en las etiquetas