Las herramientas de archivado web suelen denominarse "arañas". Empiezan con un documento HTML y luego siguen cada enlace que encuentran en él, luego buscan los enlaces en estos documentos y así sucesivamente. De esa manera, por lo general, pueden encontrar cualquier archivo en el servidor web que esté vinculado desde algún lugar del mismo dominio. Se supone que el atributo <a rel="nofollow"
en un hipervínculo impide que las arañas sigan los enlaces, pero tenga en cuenta que es solo una solicitud que la araña no sigue necesariamente (la telaraña que escribí una vez no lo hizo, solo porque era demasiado vago). para implementarlo).
Los motores de búsqueda no solo rastrean un único dominio, sino que también siguen enlaces que conducen a otros dominios, por lo que a veces se las arreglan para encontrar archivos en dominios que no están vinculados en ningún lugar de ese dominio, sino que están vinculados a otros dominios. Esto se puede evitar utilizando un robots.txt para denegar la indexación de directorios que no desea que aparezcan en los motores de búsqueda. Nuevamente, esto es solo una solicitud educada para los motores de búsqueda, no una medida de seguridad efectiva. Sin embargo, la mayoría de los motores de búsqueda lo respetarán.
Algunos servidores web se configuran de manera que cuando un visitante solicita un directorio, el servidor web genera una lista de todos los archivos y directorios allí . Sin embargo, esto se vuelve bastante raro porque generalmente no es lo que quiere el webmaster. Hoy en día, la mayoría de los servidores web están configurados de manera inmediata para devolver 403 o 404 en lugar de una lista de directorios.
Cuando un archivo no está vinculado desde ningún lugar explícitamente y el servidor web no proporciona intencionalmente alguna forma de listar el contenido del directorio, la única forma es adivinar los nombres de los archivos. Algunas herramientas de prueba de penetración adivinarán automáticamente los nombres de los archivos que podrían ser interesantes para un atacante (como /wp-config.bak
en caso de que el webmaster hiciera una copia de seguridad de su configuración de wordpress y olvidara protegerla contra el acceso público). Sin embargo, el uso brusco de todos los nombres de archivo posibles es demasiado lento para hacerlo en línea, por lo que ese método tampoco le permitirá obtener todos los archivos.