Crawler cambiando de forma masiva el agente de usuario

6

Esta mañana noté que una única dirección IP estaba rastreando un poco mi sitio web, aunque consultaba la misma página varias veces en unos minutos. Entonces me di cuenta de que estaba haciendo eso con diferentes agentes de usuario.

Decidí revisar lo que estaba pasando analizando los registros httpd de Apache

  cut -d' ' -f1 /var/log/apache2/*access.log | # Extract all IP-addresses from the server logs
  sort -u |                                    # List every IP-address only once
  while read ip; do                            # Cycle through the list of IP-addresses
    printf "$ip\t";                            # Print the IP-address 
    grep ^$ip /var/log/apache2/*access.log |   # Select log entries for an IP-address
    sed 's/^.*\("[^"]*"\)$//' |              # Extract the user-agent
    sort -u |                                  # Create a list of user-agents
    wc -l;                                     # Count the unique user-agents 
  done | 
  tee >( cat >&2; echo '=== SORTED ===' ) |    # Suspense is killing me, I want to see the progress while the script runs...
  sort -nk2 |                                  # Sort list by number of different user agents
  cat -n                                       # Add line numbers

Lo que resulta en una larga lista:

  line  IP-address      number of different user-agents used.
...
  1285  176.213.0.34    15
  1286  176.213.0.59    15
  1287  5.158.236.154   15
  1288  5.158.238.157   15
  1289  5.166.204.48    15
  1290  5.166.212.42    15
  1291  176.213.28.54   16
  1292  5.166.212.10    16
  1293  176.213.28.32   17
  1294  5.164.236.40    17
  1295  5.158.238.6     18
  1296  5.158.239.1     18
  1297  5.166.208.39    18
  1298  176.213.20.0    19
  1299  5.164.220.43    19
  1300  5.166.208.35    19

Así que hay decenas de direcciones IP que están jugando con el agente de usuario en un lapso de un par de minutos. Revisé las 50 direcciones IP principales contra mi pequeño registro privado de bots conocidos , pero no hay coincidencias allí.

Este es el aspecto del registro de acceso para una sola dirección IP (truncado vertical y horizontalmente para facilitar la lectura):

"GET / HTTP/1.0" "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36"
"GET / HTTP/1.0" "Mozilla/5.0 (Windows NT 6.1; rv:40.0) Gecko/20100101 Firefox/40.0"
"GET / HTTP/1.0" "Mozilla/5.0 (Windows NT 5.1; rv:40.0) Gecko/20100101 Firefox/40.0"
"GET / HTTP/1.0" "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:40.0) Gecko/20100101 Firefox/40.0"
"GET / HTTP/1.0" "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36"
"GET / HTTP/1.0" "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36"
"GET / HTTP/1.0" "Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36"
"GET / HTTP/1.0" "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:40.0) Gecko/20100101 Firefox/40.0"
"GET / HTTP/1.0" "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36"
"GET / HTTP/1.0" "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.99 Safari/537.36" 
"GET / HTTP/1.0" "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36"
"GET / HTTP/1.0" "Mozilla/5.0 (Windows NT 6.1; rv:40.0) Gecko/20100101 Firefox/40.0"
"GET / HTTP/1.0" "Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.99 Safari/537.36"

¿Otras personas están viendo esto? ¿Alguien tiene una pista de lo que está pasando aquí?

    
pregunta jippie 25.12.2015 - 10:59
fuente

3 respuestas

2

Como Schroeder mencionó, esto suena como un escaneo automático. Las herramientas de escaneo tienen una pila de agentes de usuario y los recorren todos. Eche un vistazo a las herramientas automatizadas de control web, como Uniscan, Arachni, Golismero, etc. Puede intentar ejecutar una de estas en su sitio para ver si obtiene los mismos resultados.

    
respondido por el mk444 27.12.2015 - 03:55
fuente
2

Esto es solo una revisión simple, pruebas de penetración, aleatorización del navegador o una mezcla de algunas de ellas.

Web Spiders

Muchas arañas web le permiten aleatorizar su agente de usuario mientras extrae el contenido de un sitio web. Esto es bastante trivial de implementar, y algunas de mis arañas web hacen lo mismo. Sin embargo, es un mal diseño para aleatorizar usuarios-agentes mientras se rastrea.

Aleatorización del navegador

Hay complementos del navegador, como Secret Agent, que te permiten aleatorizar los valores de las huellas digitales de tu navegador para evitar la detección.

Ya que solo estás viendo más de 19 intentos, también es posible que hayan visto entre 15 y 19 páginas cada uno, pero parece extraño que lo hagan de manera consistente. Incluso podría tratarse de una persona que cambie su VPN y la configuración del navegador para cada carga de página, lo que indicaría un sombrío de papel de aluminio del siguiente nivel.

Pruebas de penetración

Las herramientas de prueba de penetración automatizadas también aleatorizan a sus agentes de usuario cuando visitan una página.

Conclusión

Sin ver más de lo que está sucediendo, no podemos decirle qué está sucediendo más allá de hacer algunas conjeturas. ¿Tienes algún paquete de datos de captura? Eso ayudaría tremendamente.

    
respondido por el Mark Buffalo 27.12.2015 - 04:53
fuente
0

Es solo una suposición descabellada, pero podría tratarse de algunas pruebas de servicio si su servidor está realizando descargas de transferencia. Pero diría que algún rastreador (¿mal comportamiento?) Es la solución más posible.

    
respondido por el SleepProgger 27.12.2015 - 19:17
fuente

Lea otras preguntas en las etiquetas