Cómo detectar Selenium / webdriver navegando en mi sitio [cerrado]

0

Tengo un sitio web y observo una gran cantidad de tráfico de robots, supongo que al intentar extraer datos del sitio. Logré detectar algunos tráficos con scripts o límites de velocidad de IP, pero veo que no puedo detectar el acceso que utiliza Selenium / webdriver.

¿Alguien sabe cómo se pueden detectar?

Vi este post: enlace y comenzando a verificar esto, pero a partir de mis pruebas, no todas son posibles.

P.S. Las partes específicas (clics, enlaces, etc.) de nuestro sitio hacen que nuestro back-end trabaje duro y el acceso a ellos para el desguace interrumpa el trabajo de nuestros clientes habituales, por lo tanto, debo bloquear el acceso a esas páginas, pero las soluciones como re-captcha parecen demasiado duras (al menos para nuestro ventas). Así que, por favor, no me pidas que lo deje.

EDIT

Mi única pregunta es : ¿alguien sabe y está dispuesto a compartir cómo detectar los navegadores controlados por selenio / webdriver en mi sitio web?

Realmente no me importan las otras rondas, no son mi responsabilidad.

    
pregunta Eyal H 10.10.2017 - 07:55
fuente

3 respuestas

2

Es posible que no quieras escucharlo, pero estás haciendo la pregunta incorrecta.

  

Las partes específicas (clics, enlaces, etc.) de nuestro sitio hacen que nuestro back-end trabaje duro y el acceso a ellas para el desguace interrumpe el trabajo de nuestros clientes habituales

Estás siendo hecho inadvertidamente. Si algo tan trivial como el raspado de un sitio público es suficiente para impactar la producción / ingresos, su arquitectura es defectuosa. Perseguir a los bots y tratar de identificar cada uno de ellos no es la respuesta: siempre habrá nuevos bots y nuevos métodos de raspado.

Me sorprende constantemente la cantidad de preguntas relacionadas con el raspado web que parecen ser tareas escolares que aparecen en SO. No tienes un final de adversarios prometedores.

Además, un competidor sin escrúpulos podría simplemente suprimir su tráfico al ejecutar un enjambre de bots propios contra usted. Tuve que trabajar en lugares que me pidieron que hiciera algo similar, por lo que definitivamente existen.

Debe tomar medidas para lograr los resultados de estas solicitudes sin permitir que ningún número de visitantes arbitrarios inicien estas tareas intensivas en recursos. El almacenamiento en caché será su respuesta o restringirá estas operaciones particulares a usuarios autenticados.

    
respondido por el Ivan 10.10.2017 - 19:36
fuente
0

La mayoría de los bots / scrapers / atacantes legítimos no usarán Selenium. Solo harán las solicitudes web (también conocidas como no interactivas). Como resultado, el agente de usuario y realmente cualquier otro filtrado basado en encabezado / datos no funcionará. Tendrías que hacer un análisis basado en el comportamiento para detener el tráfico. Puede iniciar un estudio de investigación masivo sobre el comportamiento de los usuarios naturales en un intento de bloquear el tráfico deficiente, pero esa es realmente una solución costosa para un problema fácil de resolver (arregle el backend).

Hasta que arregles esto (por Ivan) puedes usar un clic reCAPTCHA . Es una medida temporal de interrupción para evitar que su sitio se rompa hasta que solucione su problema de rendimiento. Recuerda que esto es esencialmente castigar a tus usuarios (obligándolos a llenar un captcha en algunos casos) y es un horrible UX.

    
respondido por el Sirens 11.10.2017 - 04:07
fuente
-1

También supervisaría el tráfico IP entrante en nuestro servidor web.

También puede aplicar reglas de bloqueo de arranque a su archivo .htaccess, una vez hecho, verá muchas solicitudes rechazadas en sus registros.

    
respondido por el eMarcel 10.10.2017 - 09:51
fuente

Lea otras preguntas en las etiquetas