¿Es posible sabotear los bots de google? [cerrado]

0

Considere el siguiente servidor web teórico:

  

En cualquier solicitud, genere una respuesta html que consta de 2 enlaces,   cuáles son cada una de las cadenas elegidas al azar seguidas de ".html".

Cuando el bot de Google intente rastrear este sitio, se le mostrarán 2 enlaces más. En el interés de mapear el sitio, intentará navegar hacia ellos, cada uno devolviendo 2 enlaces más. Obviamente, esto sucederá infinitamente (seguramente puede surgir una solución que nunca dé el mismo nombre de página dos veces).

Mi pregunta es, ¿los bots tienen un mecanismo para detectar esto? Si es así, ¿qué es? Si no, ¿qué tipo de métodos de detección serían posibles para esta situación?

No estoy completamente seguro de si este fue el sitio SE correcto para publicar esto.

    
pregunta Cruncher 19.02.2014 - 20:49
fuente

2 respuestas

2

No. El número de páginas que Google (y cualquier otro bot de búsqueda importante) está dispuesto a rastrear en su dominio (o incluso si están dispuestos a rastrearlo en absoluto ) se basa en la relevancia que consideren su dominio.

Hay un montón de sitios con un número infinito de páginas. Este problema fue resuelto hace décadas.

    
respondido por el tylerl 19.02.2014 - 21:37
fuente
1

Incluso sin ingeniería especial, ciertas arquitecturas de sitios pueden tener rutas recursivas largas, por ejemplo, ciertos wikis. Cualquier robot escrito decentemente debe ser capaz de hacer frente a dicho comportamiento del sitio, al menos teniendo un límite de profundidad de recursión. No creo que nadie aquí pueda responder de manera concreta, ya que ninguno de nosotros tiene acceso directo al software de Google, pero imagino que el bot de Google es al menos lo suficientemente inteligente como para evitar tales trampas; además, definitivamente habrá un límite en cuanto al tiempo que un robot habrá asignado para gastar en cada sitio que rastrea, incluso si se "pierde" en su navegación.

    
respondido por el Riot 19.02.2014 - 21:36
fuente

Lea otras preguntas en las etiquetas