Estoy tratando de implementar la seguridad contra el raspado en mi sitio web para evitar las técnicas básicas de raspado.
Google parece tener una muy buena protección contra el raspado, pero es tan bueno que no puedo entender su mecanismo.
Estaba intentando realizar una solicitud GET de http como "usuario normal" mediante el uso de encabezados de navegador y parámetros de consulta normales.
Estaba funcionando bien antes de cierto número de solicitudes, luego mostraba la página de error 503 notificándome que se había detectado un tráfico inusual, también contenía mi dirección IP externa.
Lo que es extraño, es que desde mi navegador Chrome normal no hubo errores al realizar una solicitud a esa URL, pero con mis solicitudes http personalizadas seguía mostrando el estado 503.
Estaba casi seguro de que el servidor proxy podría omitir dicha protección, pero me equivoqué: a pesar de que el sitio web mostraba una dirección IP diferente, seguía recibiendo un error de estado 503.
Solicitar información
Main
----
Method: GET
URL: https://www.google.com/search
Data (Query parameers)
----------------------
q: "this+is+example"
ie: utf-8
oe: utf-8
start: 0
Headers
-------
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/27.0.1453.116 Safari/537.36'
La información que se envió desde mi navegador fue generada por Chrome: inicié sesión, por lo que también se enviaron cookies de sesión dentro de los encabezados.
Si no es la tasa de http, la tasa de IP y la tasa de cookie, ¿cómo podría Google identificar este tipo de bot raspador? ¿Hay algún otro método que pueda ofrecer dicha protección?