¿Cómo protege Google contra el raspado?

4

Estoy tratando de implementar la seguridad contra el raspado en mi sitio web para evitar las técnicas básicas de raspado.

Google parece tener una muy buena protección contra el raspado, pero es tan bueno que no puedo entender su mecanismo.

Estaba intentando realizar una solicitud GET de http como "usuario normal" mediante el uso de encabezados de navegador y parámetros de consulta normales.

Estaba funcionando bien antes de cierto número de solicitudes, luego mostraba la página de error 503 notificándome que se había detectado un tráfico inusual, también contenía mi dirección IP externa.

Lo que es extraño, es que desde mi navegador Chrome normal no hubo errores al realizar una solicitud a esa URL, pero con mis solicitudes http personalizadas seguía mostrando el estado 503.

Estaba casi seguro de que el servidor proxy podría omitir dicha protección, pero me equivoqué: a pesar de que el sitio web mostraba una dirección IP diferente, seguía recibiendo un error de estado 503.

Solicitar información

Main
----
Method: GET
URL: https://www.google.com/search

Data (Query parameers)
----------------------
q: "this+is+example"
ie: utf-8
oe: utf-8
start: 0

Headers
-------
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/27.0.1453.116 Safari/537.36'

La información que se envió desde mi navegador fue generada por Chrome: inicié sesión, por lo que también se enviaron cookies de sesión dentro de los encabezados.

Si no es la tasa de http, la tasa de IP y la tasa de cookie, ¿cómo podría Google identificar este tipo de bot raspador? ¿Hay algún otro método que pueda ofrecer dicha protección?

    
pregunta ShellRox 13.08.2018 - 14:43
fuente

2 respuestas

6

Una forma "obvia" que me viene a la mente (pero no tengo idea de si Google lo hace) es buscar solicitudes relacionadas que generaría un navegador después de recuperar la página principal.

  • Un navegador recuperará la URL principal y luego (para una página típica) solicitará varios elementos adicionales: archivos JavaScript, imágenes, archivos CSS, etc.

  • Dependiendo de cómo esté obteniendo el script de obtención (por ejemplo, solo menciona "realizar una solicitud HTTP GET") si ve solicitudes repetidas de "páginas principales", pero no hay solicitudes intercaladas de .js / .css / archivos .jpg, entonces podría asumir que eres un script.

respondido por el TripeHound 13.08.2018 - 16:33
fuente
1

Si intentas botarlo en un grado significativo, se te pedirá un captcha. Esto fue realmente molesto las dos semanas que estuve restringido al navegador web w3m. Ellos pensaron que yo era un bot.

Una o dos llamadas pasarán muy bien, pero si intentas una cantidad seria, la demanda de captcha aumentará. Lo he golpeado de vez en cuando con la mano.

No solo monitorean direcciones IP únicas, sino rangos de red de Clase C. Nos topamos con esto en la universidad de vez en cuando. Demasiados demasiado rápidos de la misma clase C pueden subir también. Creo que esta comprobación se suprime de los clientes que han iniciado sesión correctamente, pero se darán cuenta si el mismo usuario que ha iniciado sesión está demasiado activo.

En realidad, tienen un análisis profundo de la caracterización que puede identificar a los usuarios que no han iniciado sesión, y que no tiene ninguna esperanza de replicar. Google afirmó una vez (que no puedo encontrar ahora) que tenían la capacidad de desenmascarar la navegación privada, pero optaron por no hacerlo.

    
respondido por el Joshua 13.08.2018 - 20:22
fuente

Lea otras preguntas en las etiquetas