¿Cómo evitar que un bot sea atrapado? [cerrado]

0

Estoy haciendo un bot para raspar los datos de un sitio web con fines de estudio. Pero no quiero que lo atrapen y bloqueen mi ip. Básicamente, lo que hago es raspar pocas imágenes y pocas líneas de textos (usando dom y html parsing con regex: - Sé que es horrible, pero esto es para un conjunto simple de páginas web). Lo que ya intenté es ejecutar el bot en 2- Intervalos de tiempo de 3 minutos y raspar pocos datos y apagar, ¿será eso suficiente para no ser atrapado? Si no, ¿qué debo hacer? Lo que es más importante, ¿cuál es tu idea de hacer un bot que no va a ser atrapado?

importante

Esto es solo para fines de investigación y estudio, sin violar las políticas de seguridad del sitio.

Solo me preocupa si ven mi inusual tráfico de bot y bloquean mi ip.

* confía en mí, mi bot es inocente *

    
pregunta lasan 11.12.2016 - 08:14
fuente

1 respuesta

3

Puede enrutar su tráfico a través de Tor . Si se bloquea, simplemente puede cambiar a un nuevo circuito virtual con un nodo de salida diferente. Puede lograr esto integrando una biblioteca cliente Tor en sus scripts, por ejemplo. libtor . También puede configurar el proxy HTTP de su sistema a un proxy SOCKS local capaz de conectarse a Tor. Algunas buenas opciones han sido discutido en SuperUser.SE . Esto podría fallar si los servidores pueden detectar y bloquear conexiones desde la red Tor.

Aparte de eso, podría intentar enrutar su tráfico a través de un proxy HTTP o VPN anterior. Incluso esto podría fallar si su script tiene una huella digital del agente de usuario particular que se puede identificar y bloquear.

También puede acceder a las páginas a través de caché de Internet de Google o Archivo de Internet . Es posible que pueda utilizar inteligentemente las consultas de Google para hacer su raspado por usted, evitando sus preocupaciones por completo.

Cualquier intento de evadir la detección ralentizará su rastreo, posiblemente mucho. Tor será muy lento. Además, este es posiblemente un uso malicioso de Tor. Sin embargo, este método podría ser ético en el caso de un prueba de penetración legal en la que intentas simular atacantes.

En última instancia, no estás participando en una prueba de penetración, por lo que no es realmente necesario evitar la detección. Si le preocupa que lo bloqueen, puede hablar con los propietarios del sitio y solicitar su permiso para rastrear el sitio web. Tal vez no les importe, como suele ser el caso con los sitios web disponibles públicamente.

    
respondido por el user68527 11.12.2016 - 08:29
fuente

Lea otras preguntas en las etiquetas