No veo esto como una pregunta "legal". Es más una pregunta "moral", ¿es posible, fuera de una perspectiva de seguridad, "rastrear" un sitio web que no está prohibido a los robots, o el producto sería considerado "piratear"? (esto, independientemente de ello, está permitido por ley rastrear sitios web sin permiso o no)
Yo diría - depende.
Los rastreadores pueden entrar con un propósito "bueno" o "malo". Los "buenos" rastreadores se pueden considerar "buenos comportamientos" o "malos comportamientos".
Esto nos da 3 tipos de rastreadores:
Los rastreadores "malos", siempre se consideran "malos comportamientos".
Rastreadores "buenos", que tienen "mal comportamiento".
Rastreadores "buenos", que tienen "buen comportamiento".
Si el rastreador en general es "bueno" o "malo", depende del propósito que tenga el rastreador.
Por ejemplo, tu intención. Si el rastreador tiene la intención de "descargar", "parásito" o recopilar datos del sitio web para el propósito o resumir datos de varios sitios web en su sitio web, o incluso empeorar, recopilar direcciones de correo electrónico o URL de un sitio web para otros usos, Diría que es un rastreador "malo". Entonces el robots.txt no importará.
Lo mismo si se arrastra por agujeros de seguridad (para su propio placer) o si se rastrea con el propósito de ver sin conexión. Entonces siempre debes pedir permiso antes de rastrear.
Si en cambio haces algo bueno, normalmente un servicio al público. Digamos que realiza un motor de búsqueda especial para ciertos tipos de archivos, un motor de búsqueda que le permite a un usuario hacer una búsqueda local en un solo sitio web en tiempo real (similar al sitio: en google) o si realiza un servicio dirigido a webmasters, entonces diría que es un "buen" rastreador.
Digamos que haces un servicio en línea para probar la seguridad de un sitio web, o haces un rastreador "comprobador de enlaces" que comprueba si hay enlaces muertos en todas las páginas.
En el primer caso (motor de búsqueda especial), diría que seguir el protocolo robots.txt es una buena cosa.
En el segundo caso, diría que seguir a robots.txt es una buena cosa con una pequeña excepción: entonces debe ignorar a cualquier usuario-agente: * las líneas, y explícitamente requieren que el webmaster dé permiso a su bot, como
user-agent: LinkChecker
disallow:
robots.txt es una excelente manera de garantizar que un webmaster le dé su permiso Antes de realizar cualquier rastreo que deba limitarse solo a los webmasters.