Esta es una situación que he encontrado en varias ocasiones. Realizaré una búsqueda web en Google, un enlace a un archivo (por ejemplo, .pdf) lo llevará a ese archivo en el servidor. Se abre en su navegador, puede guardar el archivo.
Pero cuando retrocede a través de la URL para obtener más información sobre el sitio web que lo contiene, y si hay otra información que puede ayudar en su búsqueda, se le niega el acceso. Se le da un mensaje de error o se lo lleva a la página de inicio de sesión de un portal web. Lo que puede explicarse configurando el servidor para evitar el cruce de directorios.
Aunque entiendo que la falta de un archivo robot.txt podría contribuir a esto, algunos de estos sitios no confiarían en estos para su protección, ya que un rastreador web deshonesto simplemente ignoraría el archivo de todos modos. Sin mencionar que robot.txt enumera muchos de sus archivos y la estructura de directorios a un pirata informático.
Por lo tanto, sería demasiado presumir que algunos de estos sitios no están protegidos por firewalls físicos y, dada la autenticación del servidor que denegó el traslado a otras partes del sitio, el rastreo del sitio se podría realizar sin tener credenciales de inicio de sesión .
Entonces, ¿qué agujeros de bucle está explotando el rastreador de Google que le permite evitar un posible servidor de seguridad, la autenticación del servidor y la protección del portal para averiguar la estructura del directorio de ese servidor y crear enlaces directos que permitan a alguien sin credenciales ver ese archivo?