¿Debo bloquear el Bot Yandex?

Question

¿Debo bloquear el Bot Yandex?

#1 de deviantfan (73 votos)
#2 de dav (9 votos)
#3 de ontrack (3 votos)
#4 de Dan Neely (1 votos)

30

Tengo una aplicación web a la que la araña Yandex está intentando acceder al back-end varias veces. Después de estas búsquedas de arañas, hay pocas direcciones IP rusas que intentan acceder al back-end y no pudieron acceder.

¿Debo bloquear Yandex o realizar otra acción?

Actualizar:

La araña de Yandex visita una URL de back-end aproximadamente una vez cada 2-3 días. No publicamos ninguna URL de back-end en el front-end.

Los significados " back-end ": la interfaz de la aplicación web solo permite que nuestros administradores administren la aplicación

web-application bot

pregunta user2352577L 09.05.2016 - 06:08

fuente

4 respuestas

9

Junto con estar de acuerdo con responder de @deviantfan y específicamente con este punto

Primero, si el bot es un bot de motor de búsqueda legítimo (y nada más), no lo hackearán. De lo contrario, el bloqueo de un agente de usuario no ayudará, solo usarán otro.

Me gustaría señalar que tanto Yandex como otros bots de motores de búsqueda en general podrían no querer acceder intencionalmente a tu backend. Recuerde que los robots están rastreando los sitios siguiendo los enlaces, así que imagínese si los malos colocaran algunas de las URL de su backend en las páginas de otros sitios web, y el motor de búsqueda simplemente indexó esas páginas y ahora está tratando de seguir los enlaces desde allí. Por lo tanto, parecerá que el motor de búsqueda está intentando acceder a su backend, pero simplemente está rastreando la red: no sabe que es su backend.

Algo similar podría suceder por accidente. Digamos que un usuario no experto en tecnología publicó una url en algún foro, al que solo se puede acceder cuando usted está conectado. Al rastrear el motor de búsqueda, intentaremos seguir esos enlaces y terminará viendo los registros como supongo que hizo.

ACTUALIZACIÓN: creo que es posible que desee establecer en su regla de robots.txt para no permitir que yandex acceda a direcciones URL específicas. Por cierto, es mejor que definas una regla específica con su nombre, no estoy seguro, pero podría suceder, que yandexbot puede ignorar User-agent: * , por lo que puedes hacer algo así (de acuerdo con las URL de tu servidor)

User-agent: Yandex
Disallow: /admin/*

De este modo, no podrá intentar acceder a las URL de back-end, que coincidan con ese patrón, pero al mismo tiempo (yandexbot) será libre de rastrear otras páginas de su sitio web.

respondido por el dav 09.05.2016 - 20:31

fuente

3

No debes bloquear el bot legítimo de Yandex, pero puedes verificar que en realidad es el bot legítimo, y no alguien que solo está usando el agente de usuario de Yandex.

De: enlace

Determine la dirección IP del agente de usuario en cuestión usando los registros de su servidor. Todos los robots de Yandex están representados por un agente de usuario establecido.
Use una búsqueda DNS inversa de la dirección IP recibida para determinar el nombre de dominio del host.
Después de determinar el nombre del host, puedes verificar si pertenece o no a Yandex. Todos los robots de Yandex tienen nombres que terminan en 'yandex.ru', 'yandex.net' o 'yandex.com'. Si el nombre del host tiene un final diferente, el robot no pertenece a Yandex.
Finalmente, asegúrese de que el nombre sea correcto. Use una búsqueda de DNS hacia adelante para obtener la dirección IP correspondiente al nombre del host. Debe coincidir con la dirección IP utilizada en la búsqueda de DNS inversa. Si las direcciones IP no coinciden, significa que el nombre del host es falso.

De hecho, casi todos los motores de búsqueda grandes proporcionan formas similares de verificar el agente de usuario. La forma en que esto funciona es porque alguien puede falsificar la búsqueda de DNS inversa, pero no el DNS directo de esa dirección falsificada.

respondido por el ontrack 10.05.2016 - 12:46

fuente

1

Aunque estoy de acuerdo con la respuesta de @deviantfan, me gustaría agregar eso, ya que su pregunta inicial suena como la ruta al infierno que vi a alguien que se fue hace unos años, incluso si intenta bloquear una araña por completo. Para simplemente decirle que desaparezca a través de robots.txt (que probablemente deberías hacer por las partes de administrador de todos modos), terminarás en un juego interminable de whackamole que no puedes ganar.

Hace unos años, alguien en otro sitio que leí estaba hablando sobre cómo Google / Microsoft / Yandex / etc eran todos "DDOSing" en su sitio web. Aparentemente el sitio era "privado, y solo algunos de sus amigos deberían tener acceso, y no debería aparecer en ningún motor de búsqueda". Sin embargo, al parecer, al menos uno de sus usuarios estaba publicando enlaces a ubicaciones internas que las diversas arañas web estaban encontrando. (A diferencia de ellos, solo saben sobre www.whatever.tld de los registros DNS).

La persona que lo ejecutó decidió que tener un archivo robots.txt para que las arañas que encontraron enlaces a él simplemente leyera el archivo y se fuera, era inaceptable. Necesitaban ignorar su sitio para siempre y nunca volver a tocarlo bajo ninguna circunstancia. (Nunca dio una explicación razonable de por qué esta era la única opción aceptable. Como aparentemente, estaban haciendo algo al respecto de quien estaba publicando enlaces a ubicaciones internas en su sitio que las arañas estaban encontrando, o simplemente requerían autenticación para que los bots simplemente se vieran a una página de inicio de sesión de contenido libre.)

En su lugar, acaba de comenzar a poner en una lista negra todas las direcciones IP de las arañas web para que los intentos de solicitud se agoten sin respuesta. Una vez que hizo eso, descubrió que, en lugar de seguir un solo enlace para obtener el archivo robots.txt y desaparecer por un período de tiempo, las arañas tenían intervalos de reintentos mucho más cortos cuando cometieron errores y comenzaron a atacar su sitio desde numerosos IP diferentes. (Presumiblemente las arañas que intentan enrutar lo que supusieron fue un error de red).

Este fue el punto en el que su lista negra de IP explotó en miles de direcciones y comenzó a despotricar acerca de que los motores de búsqueda lo estaban controlando. Lamentablemente, la persona se había vuelto loca en ese momento y rechazó todos los intentos de resolver su problema real en lugar de lo que estaba convencido de que era la solución correcta.

respondido por el Dan Neely 10.05.2016 - 13:27

fuente

Lea otras preguntas en las etiquetas web-application bot

¿Hay alguna manera de evitar que alguien cree su propia aplicación de cliente para mi servicio web? [duplicar] ¿Tener Steam instalado es un riesgo para la seguridad?

score 73 · Accepted Answer

Debería bloquear Yandex

¿Por qué?
Primero, si el bot es un bot de motor de búsqueda legítimo (y nada más), no lo hackearán. Si no, bloquear un agente de usuario no ayudará, solo usarán otro.
Si su contraseña es buena, fail2ban está configurado, el software está actualizado, etc., simplemente deje que lo intenten. Si no es así, debes solucionarlo, independientemente de los bots de Yandex.

Para asegurarse de que el problema sea realmente Yandex, intente deshabilitarlo en robots.txt y vea si se detiene.
No = > no Yandex.

(Configuré un nuevo servidor web hace algunas semanas. Una hora después de estar en línea, aún no tenía un dominio, un "Googlebot" comenzó a probar las inyecciones de SQL para un Wordpress inexistente. Fue divertido verlo, ya que no hubo otras solicitudes HTTP. Pero no bloqueé Google debido a eso.)