Sin embargo, toda esta discusión posiblemente pertenece a Pro Webmasters; como se señala en uno de los comentarios, también es aplicable aquí.
Tener varios motores de búsqueda en su sitio a la vez es un comportamiento absolutamente normal. Si logró obtener enlaces a su sitio desde otros sitios acreditados, lo indexarán. Los más brutales son Yahoo, Yandex y Baidu. La primera vez que nuestro sitio web se atascó, entré en modo DDOS y me avergoncé al descubrir que todas las IP provenían de fuentes reconocidas de Microsoft, Yahoo y Google (verificadas por la propiedad de bloqueo de IP, no por UA Strings). La respuesta fue reforzar los recursos del sitio web para manejar la carga.
A pesar de lo que suponga sobre la cantidad de usuarios simultáneos, su servidor web debe ser capaz de manejar Google, Bing y Yahoo indexando simultáneamente su sitio más su tráfico esperado. Si su sitio no puede tomar la carga de ser indexado, deberá excluir o restringir los motores de búsqueda. Si bien existe una patética entrada de robots.txt que es casi compatible, obtendrá mejores resultados al registrarse en las herramientas para webmasters de Google, Bing, Yandex y utilizar sus páginas de regulación para configurar su tráfico de indexación para que se ajuste mejor a la programación de su sitio web.
Verifique de dónde proviene el tráfico analizando los registros de acceso de su servidor web. Busque las direcciones IP (http://www.botsvsbrowsers.com/ es una de esas herramientas para ayudar a identificar las fuentes de tráfico del bot). Yandex y Baidu son respetuosamente Europa del Este y China. Si no están en su sede, prohíbalos para ahorrar ancho de banda.
EDITAR: Después de revisar los registros de acceso, esté atento a los aumentos repentinos en el tráfico de una cadena de UA conocida del motor de búsqueda con cadenas de consulta impares. Las cadenas de User Agent no son una prueba de que el tráfico proviene de quien dice que proviene, ya que la persona que envía el tráfico puede generarlas a voluntad e intentar esconderse detrás de la identidad de UA.