Hay muchas maneras de hacer cumplir el límite de tasa de solicitud, así que me centraré aquí en lo que parece estar sucediendo en su caso;
Es altamente improbable, considerando que es un sitio de comercio, que está lidiando con una configuración de IDS (Sistema de Detección de Intrusos) retentiva anal para bloquear cualquier cosa que se vea remotamente como un rastreador y bloquee (redirige en su caso) las solicitudes en la red nivel. A pesar de que dichos sistemas son capaces de limitar la frecuencia de las solicitudes, en sitios como usted describe, estos se instalarán mucho más permisivamente y solo intentarán evitar las solicitudes ilegales, las inundaciones de solicitudes y otras similares. 20 solicitudes GET por hora no es eso.
Lo más probable es que haya alcanzado un WAF (Web Application Firewall) molesto que actúa en el nivel de la aplicación y que le interese la huella digital de su navegador y compare las solicitudes consecutivas para establecer si eres un rastreador, luego marca tus solicitudes como sospechosas si siguen cierto patrón que está configurado (o incluso entrenado, si estás tratando con un WAF heurístico) para detectar. Como, por ejemplo, solicitar muchas páginas subsiguientes en el mismo orden en que aparecen en la fuente, pero faltan esta página de origen (o el dominio solo en el caso de HTTPS) en el encabezado de solicitud GET referer
[sic, está mal escrito en Campo de especificaciones HTTP]. Esto sucedería si ejecutara un script en su navegador para solicitar cada nueva página de forma independiente, como si escribiera su URL en la barra de direcciones y presionara Enter, y es uno de los métodos más seguros (baja probabilidad de falsos positivos) de detectar rastreadores automatizados (también conocidos como bots ), especialmente si solicita repetidamente direcciones URL largas y desordenadas y, de lo contrario, utilizan versiones de direcciones URL legibles por el usuario, o aquellas equipadas con parámetros URI adicionales (esquemas de referencia, seguimiento de usuarios, ...) en correos electrónicos y en cualquier otro lugar donde los usuarios puedan acceder a más de en un corto período de tiempo sin abrirlos a través de alguna página de destino.
En resumen, si desea evitar esta detección de rastreadores automatizados, tendrá que inspeccionar y obedecer las reglas en su página robots.txt
, solicitar al administrador del sitio laxa de las reglas de su rastreador y asegurarse pueden identificarlo fácilmente (por ejemplo, a través de la cadena de agente de usuario), o hacer que su secuencia de comandos imite a un usuario humano. El penúltimo párrafo debería ayudarlo a evitar una de las técnicas de detección de bots más comunes que parece aplicarse en su caso, pero podría aplicar otras adicionales a medida que aumente su tasa de solicitud.