Spider Attack de varios motores de búsqueda a la vez

3

Hola, mi servidor está siendo golpeado por arañas de bingbot, google, yahoo, yandex y algún lugar en el Reino Unido al mismo tiempo que se estrella.

Aunque no tengo ninguna razón para pensar que una persona haya hecho esto, me parece extraño que haya ocurrido todo al mismo tiempo.

¿Debería estar preocupado?

Los únicos cambios antes de que esto comenzara fue que cambié todas las contraseñas del servidor.

    
pregunta Rick 28.06.2012 - 22:26
fuente

4 respuestas

9

Bing, Google y Yahoo generalmente no inundan el servidor con solicitudes, sino que envían mucho menos de una solicitud por segundo.

Por favor, vuelva a verificar que realmente recibe muchas solicitudes de ellos dentro de un período de tiempo muy corto (por ejemplo, dentro de un segundo).

Si su aplicación web tiene problemas con el manejo de solicitudes ocasionales (por ejemplo, a solicitud por segundo), puede reducir la velocidad de Bing y Yahoo con la siguiente entrada en robots.txt:

Crawl-delay: 120

Esto le pedirá a los rastreadores que esperen al menos 120 segundos entre las solicitudes. Para Google, puede definir el retraso en las herramientas para webmasters .

    
respondido por el Hendrik Brummermann 28.06.2012 - 23:22
fuente
3

Sin embargo, toda esta discusión posiblemente pertenece a Pro Webmasters; como se señala en uno de los comentarios, también es aplicable aquí.

Tener varios motores de búsqueda en su sitio a la vez es un comportamiento absolutamente normal. Si logró obtener enlaces a su sitio desde otros sitios acreditados, lo indexarán. Los más brutales son Yahoo, Yandex y Baidu. La primera vez que nuestro sitio web se atascó, entré en modo DDOS y me avergoncé al descubrir que todas las IP provenían de fuentes reconocidas de Microsoft, Yahoo y Google (verificadas por la propiedad de bloqueo de IP, no por UA Strings). La respuesta fue reforzar los recursos del sitio web para manejar la carga.

A pesar de lo que suponga sobre la cantidad de usuarios simultáneos, su servidor web debe ser capaz de manejar Google, Bing y Yahoo indexando simultáneamente su sitio más su tráfico esperado. Si su sitio no puede tomar la carga de ser indexado, deberá excluir o restringir los motores de búsqueda. Si bien existe una patética entrada de robots.txt que es casi compatible, obtendrá mejores resultados al registrarse en las herramientas para webmasters de Google, Bing, Yandex y utilizar sus páginas de regulación para configurar su tráfico de indexación para que se ajuste mejor a la programación de su sitio web.

Verifique de dónde proviene el tráfico analizando los registros de acceso de su servidor web. Busque las direcciones IP (http://www.botsvsbrowsers.com/ es una de esas herramientas para ayudar a identificar las fuentes de tráfico del bot). Yandex y Baidu son respetuosamente Europa del Este y China. Si no están en su sede, prohíbalos para ahorrar ancho de banda.

EDITAR: Después de revisar los registros de acceso, esté atento a los aumentos repentinos en el tráfico de una cadena de UA conocida del motor de búsqueda con cadenas de consulta impares. Las cadenas de User Agent no son una prueba de que el tráfico proviene de quien dice que proviene, ya que la persona que envía el tráfico puede generarlas a voluntad e intentar esconderse detrás de la identidad de UA.

    
respondido por el Fiasco Labs 29.06.2012 - 04:39
fuente
1

Se está arrastrando debido a algún enlace en alguna parte. Necesitará controlar los robots o arreglar los sitios web para que sean más rápidos. Si no está seguro de cómo controlar los robots, puede consultar la página webmaster de google o esto:

enlace

    
respondido por el Andrew Smith 28.06.2012 - 23:10
fuente
0

No estoy de acuerdo en que esto siempre es un comportamiento normal. Estoy bajo un ataque DDOS similar de los motores de búsqueda. Tenemos amplios recursos y numerosos servidores redundantes que manejan nuestro sitio. Todos con DNS failover. Y a BOOM nos pegaron y dejamos la web. Primero vi informes de fallos subiendo y bajando como locos.

Pensamos que teníamos un AJAX incorrecto o una página de consultas sin caché al ser golpeada. A medida que miraba más profundamente en los registros y veía a todos los bots, simular bots y querer ser bots reconocidos y desconocidos, sabía que era un ataque iniciado. ¿Por qué? Nuestro robot.txt solo permite googlebot, todo lo demás está excluido de nuestra flota de servidores.

Así que el robot.txt fue ignorado, y estamos siendo derribados. Entonces, si ignoras mi robot.txt, mi firewall no te ignorará. Hemos bloqueado (y aún somos) más de 60 arañas hasta ahora. (Todos golpean al mismo tiempo, ignorando tanto el retraso 360 como el rechazo en nuestro .txt). Así que no siempre pensaría que esto ya es normal.

    
respondido por el Franklin 27.07.2012 - 16:33
fuente

Lea otras preguntas en las etiquetas