Hay dos tipos de automatización que deberían interesarte en lo que respecta a la automatización.
En un lado de la moneda hay arañas de motores de búsqueda que derribarán todo lo que puedan, puedes dirigir estas arañas con un archivo robots.txt y sitemap.xml. Que es un problema simple de resolver.
En el otro lado de la moneda se encuentran los raspadores de contenido (muy poco comunes). Estos son virtualmente indistinguibles de las arañas de los motores de búsqueda. A menudo utilizan el mismo agente de usuario, y utilizan aproximadamente la misma cantidad de ancho de banda que una araña de motores de búsqueda porque ambos quieren estar al día. Para encontrar una araña que está rompiendo las reglas, puede especificar un controlador de solicitud de lista negra en su archivo robots.txt, y si alguien llega a esa página, puede eliminarlas. Aunque, el número o las arañas maliciosas es muy, muy pequeño, y esto podría aprovecharse como un ataque CSRF-DoS, por lo que un atacante obliga a una víctima a cargar el controlador de solicitudes de la lista negra.
... dicho 1GB es TONELADA de texto , y es muy poco probable que superes este límite a menos que seas la víctima de un ataque DoS.