¿Cómo los sitios web rastrean a los usuarios para controlar el flujo?

Question

¿Cómo los sitios web rastrean a los usuarios para controlar el flujo?

#1 de TildalWave (2 votos)

2

He escrito un programa corto que utiliza un navegador web para visitar muchas páginas de un sitio web (en el que los usuarios pueden vender / comprar artículos, algo así como un especialista en eBay). Sin embargo, después de 20 o más visitas a la página, me dirigen a una página de control de flujo: "has realizado demasiadas solicitudes recientemente".

Realmente no tengo ningún problema con la difusión de mis solicitudes, esto es para un proyecto de mascotas nada comercial. Sin embargo, pensé que lo intentaría y evitarlo para poder asegurarme de no faltar páginas (mi plan es hacer exactamente 20 páginas cada hora, lo que en este momento parece estar por debajo del límite). Al principio pensé que podrían ser solo cookies, así que las eliminé después de cada solicitud. Pensé que podría ser algo que ver con la última página en la que estaba (es decir, me muevo a la página 2 y sabe que vengo de la página 1, etc.). así que envié el control del navegador web a un espacio en blanco y entre solicitudes (tampoco aquí hay éxito).

Entonces, ¿cómo hace un sitio web para rastrear a los usuarios con fines de control de flujo? no puede basarse en IP porque todavía puedo acceder al sitio usando un navegador diferente (chrome en lugar de un IE integrado).

internet internet-explorer

pregunta FraserOfSmeg 11.03.2016 - 20:50

fuente

1 respuesta

Lea otras preguntas en las etiquetas internet internet-explorer

Múltiples usuarios compartiendo la misma IP Informe de exploración de Nmap con todo el estado del puerto

score 2 · Accepted Answer

Hay muchas maneras de hacer cumplir el límite de tasa de solicitud, así que me centraré aquí en lo que parece estar sucediendo en su caso;

Es altamente improbable, considerando que es un sitio de comercio, que está lidiando con una configuración de IDS (Sistema de Detección de Intrusos) retentiva anal para bloquear cualquier cosa que se vea remotamente como un rastreador y bloquee (redirige en su caso) las solicitudes en la red nivel. A pesar de que dichos sistemas son capaces de limitar la frecuencia de las solicitudes, en sitios como usted describe, estos se instalarán mucho más permisivamente y solo intentarán evitar las solicitudes ilegales, las inundaciones de solicitudes y otras similares. 20 solicitudes GET por hora no es eso.

Lo más probable es que haya alcanzado un WAF (Web Application Firewall) molesto que actúa en el nivel de la aplicación y que le interese la huella digital de su navegador y compare las solicitudes consecutivas para establecer si eres un rastreador, luego marca tus solicitudes como sospechosas si siguen cierto patrón que está configurado (o incluso entrenado, si estás tratando con un WAF heurístico) para detectar. Como, por ejemplo, solicitar muchas páginas subsiguientes en el mismo orden en que aparecen en la fuente, pero faltan esta página de origen (o el dominio solo en el caso de HTTPS) en el encabezado de solicitud GET referer [sic, está mal escrito en Campo de especificaciones HTTP]. Esto sucedería si ejecutara un script en su navegador para solicitar cada nueva página de forma independiente, como si escribiera su URL en la barra de direcciones y presionara Enter, y es uno de los métodos más seguros (baja probabilidad de falsos positivos) de detectar rastreadores automatizados (también conocidos como bots ), especialmente si solicita repetidamente direcciones URL largas y desordenadas y, de lo contrario, utilizan versiones de direcciones URL legibles por el usuario, o aquellas equipadas con parámetros URI adicionales (esquemas de referencia, seguimiento de usuarios, ...) en correos electrónicos y en cualquier otro lugar donde los usuarios puedan acceder a más de en un corto período de tiempo sin abrirlos a través de alguna página de destino.

En resumen, si desea evitar esta detección de rastreadores automatizados, tendrá que inspeccionar y obedecer las reglas en su página robots.txt , solicitar al administrador del sitio laxa de las reglas de su rastreador y asegurarse pueden identificarlo fácilmente (por ejemplo, a través de la cadena de agente de usuario), o hacer que su secuencia de comandos imite a un usuario humano. El penúltimo párrafo debería ayudarlo a evitar una de las técnicas de detección de bots más comunes que parece aplicarse en su caso, pero podría aplicar otras adicionales a medida que aumente su tasa de solicitud.