¿Cómo puede el rastreador web de Google eludir los portales?

3

Esta es una situación que he encontrado en varias ocasiones. Realizaré una búsqueda web en Google, un enlace a un archivo (por ejemplo, .pdf) lo llevará a ese archivo en el servidor. Se abre en su navegador, puede guardar el archivo.

Pero cuando retrocede a través de la URL para obtener más información sobre el sitio web que lo contiene, y si hay otra información que puede ayudar en su búsqueda, se le niega el acceso. Se le da un mensaje de error o se lo lleva a la página de inicio de sesión de un portal web. Lo que puede explicarse configurando el servidor para evitar el cruce de directorios.

Aunque entiendo que la falta de un archivo robot.txt podría contribuir a esto, algunos de estos sitios no confiarían en estos para su protección, ya que un rastreador web deshonesto simplemente ignoraría el archivo de todos modos. Sin mencionar que robot.txt enumera muchos de sus archivos y la estructura de directorios a un pirata informático.

Por lo tanto, sería demasiado presumir que algunos de estos sitios no están protegidos por firewalls físicos y, dada la autenticación del servidor que denegó el traslado a otras partes del sitio, el rastreo del sitio se podría realizar sin tener credenciales de inicio de sesión .

Entonces, ¿qué agujeros de bucle está explotando el rastreador de Google que le permite evitar un posible servidor de seguridad, la autenticación del servidor y la protección del portal para averiguar la estructura del directorio de ese servidor y crear enlaces directos que permitan a alguien sin credenciales ver ese archivo?

    
pregunta tk1974 24.05.2014 - 09:53
fuente

1 respuesta

5

Algunas veces me da la ilusión de que GoogleBot tiene acceso especial a la estructura del directorio, pero eso no significa que haya una laguna o una vulnerabilidad.

Algunas de las razones de esa ilusión:

  • Los enlaces pueden ser desde fuera del sitio web. Puedo publicar en mi blog un enlace a un Pastebin que no aparece en ninguna parte de pastebin.com.
  • Es posible que se hayan eliminado u ocultado las páginas que tenían los enlaces a sus documentos, pero Google aún tiene el enlace al archivo.
  • El archivo del mapa del sitio puede tener una lista de enlaces a los archivos en ese sitio web.
  • El propietario del sitio web puede usar las Herramientas para webmasters de Google y cargar una lista de enlaces en el sitio web.
  • Algo que es casi una vulnerabilidad, pero no del todo, es que GoogleBot descompila los recursos flash e indexa el texto y los enlaces que se encuentran allí.
  • También puede ejecutar JavaScript y analizar contenido Ajax.
  • Hay un nuevo agente de usuario de Googlebot que busca contenido móvil. La interfaz móvil puede configurarse de forma incorrecta para mostrar más información y tener más acceso que la clásica.
  • Como comentaron otros, los sitios web pueden proporcionar más o diferentes detalles cuando la IP o el agente de usuario que lo visita indica Googlebot. Esto se denomina cronometraje y no es tolerado por Google ni por ningún otro motor de búsqueda.

Googlebot tiene reglas simples, sigue los enlaces y respeta el archivo robots.txt y la etiqueta nofollow. Indexa la información que debe ser accesible para los usuarios de Google y no romper la seguridad o privacidad de los sitios web rastreados. Si hay algo que indique lo contrario, sospecho que hay una configuración incorrecta del sitio web en lugar de malicia o magia de Googlebot.

    
respondido por el Cristian Dobre 24.05.2014 - 10:28
fuente

Lea otras preguntas en las etiquetas