Si el archivo robots.txt de un sitio web de una gran empresa no tiene una sección No permitido, ¿significa que soy libre de escribir código para rastrear su sitio web? [cerrado]

Question

Si el archivo robots.txt de un sitio web de una gran empresa no tiene una sección No permitido, ¿significa que soy libre de escribir código para rastrear su sitio web? [cerrado]

#1 de schroeder (6 votos)
#2 de Brilliand (3 votos)
#3 de Hugo (0 votos)
#4 de sebastian nielsen (-1 votos)

2

Si el archivo robots.txt de un sitio web de una empresa grande no tiene una sección No permitido, ¿significa que soy libre de escribir código para rastrear su sitio web?

El sitio web en cuestión es básicamente un almacén de datos para el tipo de información que necesito, información que se actualiza minuto a minuto (por lo que voy a realizar una encuesta), y su archivo robots.txt se ve así. :

User-agent: *

Son una empresa global, por lo que asumo que saben cómo funciona un archivo robots.txt . ¿Esto significa que puedo rastrear o debo contactar con ellos primero?

No estoy preguntando desde una perspectiva legal, sino más bien desde el punto de vista de un desarrollador / experto en seguridad que escribe intencionalmente el archivo robots.txt anterior. Si lo hace, ¿está diciendo esencialmente que el rastreo está bien?

websites

pregunta JMK 17.10.2014 - 21:47

fuente

4 respuestas

Lea otras preguntas en las etiquetas websites

Volcar la contraseña de Linux en texto claro ¿Se puede usar la falsificación de IP para anonimizar los ataques DDOS?

score 6 · Answer 1

6

Un archivo robots.txt NO implica ningún permiso legal de una manera u otra. Su único propósito es limitar los resultados de un rastreador para los rastreadores que eligen respetar el contenido del archivo robots.txt.

respondido por el schroeder 17.10.2014 - 23:08

fuente

score 3 · Answer 2

Un archivo robots.txt vacío o faltante significa que usted es libre de rastrear todo su sitio. Extendería esa regla a los archivos que contienen texto, pero no el contenido real. Recuerde que esto no es una concesión de permiso a largo plazo: si el propietario del sitio coloca un robots.txt válido en una fecha posterior, su código lo detectará y comenzará a respetarlo con bastante rapidez.

De robotstext.org :

Para permitir que todos los robots tengan acceso completo
User-agent: *
Disallow:
(o simplemente cree un archivo "/robots.txt" vacío, o no use uno en absoluto)

score 0 · Answer 3

Éticamente, no debes rastrear lo que están solicitando que no se rastree, pero algunas de las arañas ignoran este archivo y rastrean todo lo que pueden.

Legalmente, no sé si existe alguna implicación porque podría depender de las leyes de cada país.

Me quedaría en la parte ética y si alguien me dice que no lo haga, tendré que respetarlo.

Si no dicen nada, puedes rastrearlo a voluntad, ya que será lo mismo que cualquier motor de búsqueda.

score -1 · Answer 4

No veo esto como una pregunta "legal". Es más una pregunta "moral", ¿es posible, fuera de una perspectiva de seguridad, "rastrear" un sitio web que no está prohibido a los robots, o el producto sería considerado "piratear"? (esto, independientemente de ello, está permitido por ley rastrear sitios web sin permiso o no)

Yo diría - depende. Los rastreadores pueden entrar con un propósito "bueno" o "malo". Los "buenos" rastreadores se pueden considerar "buenos comportamientos" o "malos comportamientos".

Esto nos da 3 tipos de rastreadores:

Los rastreadores "malos", siempre se consideran "malos comportamientos".

Rastreadores "buenos", que tienen "mal comportamiento".

Rastreadores "buenos", que tienen "buen comportamiento".

Si el rastreador en general es "bueno" o "malo", depende del propósito que tenga el rastreador. Por ejemplo, tu intención. Si el rastreador tiene la intención de "descargar", "parásito" o recopilar datos del sitio web para el propósito o resumir datos de varios sitios web en su sitio web, o incluso empeorar, recopilar direcciones de correo electrónico o URL de un sitio web para otros usos, Diría que es un rastreador "malo". Entonces el robots.txt no importará. Lo mismo si se arrastra por agujeros de seguridad (para su propio placer) o si se rastrea con el propósito de ver sin conexión. Entonces siempre debes pedir permiso antes de rastrear.

Si en cambio haces algo bueno, normalmente un servicio al público. Digamos que realiza un motor de búsqueda especial para ciertos tipos de archivos, un motor de búsqueda que le permite a un usuario hacer una búsqueda local en un solo sitio web en tiempo real (similar al sitio: en google) o si realiza un servicio dirigido a webmasters, entonces diría que es un "buen" rastreador. Digamos que haces un servicio en línea para probar la seguridad de un sitio web, o haces un rastreador "comprobador de enlaces" que comprueba si hay enlaces muertos en todas las páginas.

En el primer caso (motor de búsqueda especial), diría que seguir el protocolo robots.txt es una buena cosa. En el segundo caso, diría que seguir a robots.txt es una buena cosa con una pequeña excepción: entonces debe ignorar a cualquier usuario-agente: * las líneas, y explícitamente requieren que el webmaster dé permiso a su bot, como

user-agent: LinkChecker
disallow:

robots.txt es una excelente manera de garantizar que un webmaster le dé su permiso Antes de realizar cualquier rastreo que deba limitarse solo a los webmasters.