¿Se nota cuando toma una copia de un sitio web?

1

¿Se nota cuando utiliza una herramienta para obtener una copia de un sitio web? - ¿qué probabilidades hay de que active registros y otras cosas cuando utiliza herramientas como HTTrack?

¿Es realmente ilegal o "malo" hacer esto? - Todo lo que estás haciendo es navegar por el sitio web con bastante rapidez, ¿no?

    
pregunta Crizly 28.09.2014 - 23:37
fuente

2 respuestas

5

¿Se nota? Mucho más: cientos o miles de solicitudes de disparo rápido de una sola dirección se pegarán en los registros y pueden desencadenar medidas anti-DoS o anti-rastreadores.

¿Es malo? Depende del sitio, la velocidad de copia, y muchos otros factores. Rastrear rápidamente un sitio web alojado en el servidor doméstico de alguien podría sobrecargar su conexión fácilmente y hacer que el sitio no esté disponible para otras personas; Si es un sitio generado dinámicamente en un alojamiento compartido, lo mismo podría ocurrir debido a una sobrecarga de CPU.

En el aspecto legal, depende de los términos de servicio del sitio y de lo que pretende hacer con su copia. Si simplemente está copiando el sitio para uso personal sin conexión y el ToS no lo prohíbe explícitamente, es poco probable que haya problemas.

    
respondido por el Mark 28.09.2014 - 23:55
fuente
1

Depende.

Por un lado, se debe asumir que cada solicitud HTTP deja una entrada en los registros del servidor. Lo que esto significa, sin embargo, es altamente dependiente del contexto. Para un sitio web pequeño con solo unas pocas páginas, un espejo completo puede ser indistinguible de un clic humano en un pequeño número de enlaces. Sin embargo, un sitio web que contiene millones de páginas necesariamente requiere millones de solicitudes HTTP para duplicar.

Los sistemas de análisis de weblog generalmente incluyen mecanismos para trazar la densidad de solicitudes geográficamente, y la maquinaria estadística que lo hace puede detectar de forma trivial los picos de muchas solicitudes provenientes de una sola dirección IP o red en un tiempo relativamente corto.

El propietario del sitio web puede objetar o no, según el contexto. Muchas empresas generalmente están felices cuando GoogleBot lee a través de sus sitios web, por ejemplo. Pueden sentirse mucho menos felices cuando notan que un competidor está haciendo lo mismo. También pueden sentirse insatisfechos cuando notan que el tráfico o la potencia de cómputo necesaria para generar respuestas les cuesta más dinero del que esperaban gastar en el servicio.

Dependiendo de qué tipo de datos son atendidos por el servidor, puede adquirir algunas responsabilidades legales si se pone en posesión de ellos. Por ejemplo, en la UE, la Directiva de protección de datos (y las leyes nacionales que la implementan) rigen el tratamiento de datos personales.

En general, si desea reflejar o raspar un sitio web de manera educada, debe comenzar solicitando /robots.txt , analizarlo y seguir las instrucciones que aparecen en él. Por lo general, también debe espaciar las solicitudes al servidor para que no se ahogue con su tráfico. Hoy en día, unos pocos segundos de retraso entre completar una solicitud y comenzar una nueva generalmente se consideran suficientes. El retraso esperado solía ser más prolongado en los primeros días de Internet, cuando los anchos de banda eran más bajos, la potencia de procesamiento era más costosa y los servidores web eran más incapaces de equilibrar su carga.

Los sitios web también pueden contener avisos legales o 'términos de uso', que pueden o no interesarle. En algunas jurisdicciones pueden ser exigibles por los tribunales civiles. En algunas jurisdicciones, el enjuiciamiento penal puede ser un riesgo si no las obedece. En algunas jurisdicciones, los tribunales pueden no preocuparse en absoluto. Pregúntele a su abogado. Obviamente, en la actualidad, en general, no se espera que un robot de amplio espectro sea capaz de entender los términos legales, solo robots.txt , pero si está rastreando un sitio web en particular, echar un vistazo a los términos puede ser un buen punto de preparación.

A veces, los términos de uso pueden incluir solicitudes razonables por parte de los usuarios detrás del sitio web; Si es así, normalmente deberías respetar sus deseos.

    
respondido por el dig 03.04.2018 - 05:30
fuente

Lea otras preguntas en las etiquetas