¿Cómo evitar el abuso del tráfico de la aplicación GAE?

1

Voy a desarrollar un sitio CMS simple sobre Google App Engine usando webapp2. Me pregunto cómo evitar que los raspadores de datos malintencionados obtengan las páginas deliberadamente para que la aplicación consuma tráfico más allá de la cuota gratuita (creo que 1 GB por día) y, por lo tanto, haga que Google me cobre por el tráfico no deseado. Gracias

    
pregunta hnn 25.06.2013 - 01:12
fuente

1 respuesta

1

Hay dos tipos de automatización que deberían interesarte en lo que respecta a la automatización.

En un lado de la moneda hay arañas de motores de búsqueda que derribarán todo lo que puedan, puedes dirigir estas arañas con un archivo robots.txt y sitemap.xml. Que es un problema simple de resolver.

En el otro lado de la moneda se encuentran los raspadores de contenido (muy poco comunes). Estos son virtualmente indistinguibles de las arañas de los motores de búsqueda. A menudo utilizan el mismo agente de usuario, y utilizan aproximadamente la misma cantidad de ancho de banda que una araña de motores de búsqueda porque ambos quieren estar al día. Para encontrar una araña que está rompiendo las reglas, puede especificar un controlador de solicitud de lista negra en su archivo robots.txt, y si alguien llega a esa página, puede eliminarlas. Aunque, el número o las arañas maliciosas es muy, muy pequeño, y esto podría aprovecharse como un ataque CSRF-DoS, por lo que un atacante obliga a una víctima a cargar el controlador de solicitudes de la lista negra.

... dicho 1GB es TONELADA de texto , y es muy poco probable que superes este límite a menos que seas la víctima de un ataque DoS.

    
respondido por el rook 25.06.2013 - 03:16
fuente

Lea otras preguntas en las etiquetas