¿Hay alguna razón para permitir que Python recupere las páginas de mi servidor web?

Question

¿Hay alguna razón para permitir que Python recupere las páginas de mi servidor web?

#1 de Tom Leek (4 votos)

0

Sigo viendo solicitudes "python-pedidos / 1.1.0 CPython / 2.7.4 Linux / 3.8.0-19-generic", por ejemplo. de los servidores de Amazon de mi sitio web. Es un poco espeluznante. ¿Quién configuraría un servidor de Amazon para escanear sitios web? ¿Debo bloquearlos? Saludos

http webserver python server

pregunta Multivariate 22.08.2013 - 05:53

fuente

1 respuesta

Lea otras preguntas en las etiquetas http webserver python server

¿Por qué los TLD no registran a las CA de TLS? ¿Existen fallas obvias en este método de comunicación de receptor anónimo usando Twitter?

score 4 · Answer 1

Tienes un sitio web; está destinado a proporcionar páginas a quien las solicite. Ese es el punto central de un sitio web. ¿Qué sentido tendría rechazar el envío de la página a algunas personas? Especialmente si el criterio de exclusión es la cadena User-Agent , que el cliente elige libremente. Cualquier persona con intenciones nefastas puede enmascarar su software para que aparezca, de su lado, como un Internet Explorer básico o Chrome o lo que sea; incluso si fuera sensato excluir a los clientes HTTP que están escritos en Python, el filtrado en el User-Agent simplemente rechazaría a los clientes que sean lo suficientemente honestos como para admitir que utilizan Python como su lenguaje de programación.

Es plausible que este cliente específico sea una especie de rastreador web . Realmente no puede evitar que los rastreadores web absorban los datos de su sitio web, siempre que permita la navegación de usuarios no autenticados, aunque puede instalar algunas medidas de mitigación contra la descarga sistemática en todo el sitio (eso es lo que hace Google, para Google Maps: si ver demasiadas solicitudes de un cliente dado dentro de un marco de tiempo dado, sospechan juego sucio). puede documentar su falta de voluntad para ver su sitio inspeccionado por rastreadores web, con un robots.txt expediente; la mayoría de los rastreadores honran ese archivo. Pero esto no detendrá a cualquier rastreador determinado. El mejor curso de acción es:

implemente e implemente procedimientos de autenticación, rechazando el acceso a personas que no han sido debidamente autenticadas con, por ejemplo, un nombre de usuario o contraseña;
o acepte que los datos públicos son públicos, y no existe tal cosa como "público excepto para personas malvadas".