Ocultar de los webcrawlers

1

Si tuviera razones legítimas para hacerlo, ¿sería posible ocultar un servicio a los webcrawlers y, con eso, ocultarlo de cualquier motor de búsqueda como Google?

¿Puedo evitar que una persona promedio se tropiece con mi servicio con solo buscarlo y que la gente solo tenga acceso a ese servicio, si saben que existe y cómo acceder a él?

    
pregunta Reteras 01.09.2018 - 00:26
fuente

2 respuestas

2

Como sugirió forest @, puede usar un archivo de exclusión de robots, que como él también dijo que solo seguirán los rastreadores web compatibles. Pero, esto es como abrir su casa para que todos la visiten y poner el cartel "por favor, no mire dentro" en la puerta abierta del dormitorio. Adivina qué, hay visitantes que sienten curiosidad por el motivo por el que no deberían mirar y harán exactamente esto.

Por lo tanto, es solo una forma de disuadir a los visitantes educados como los principales motores de búsqueda. Si esto es suficiente para ti, entonces podrías ir por ello.

  

... y solo tienen personas que accedan a ese servicio, si saben que existe y cómo acceder a él

Esto se puede realizar ya sea teniendo un enlace no público o requiriendo más que solo el enlace, es decir, haga que la puerta del dormitorio sea invisible o simplemente bloquee la puerta con una llave.

Un enlace no público se puede realizar simplemente mediante la creación de algún archivo o directorio que no esté vinculado desde otra parte de su página (y tampoco debería ser visible en algún índice de directorio generado automáticamente, es decir, desactívelo). Los rastreadores que no sepan por adelantado acerca de este enlace no podrán rastrearlo ya que no está vinculado desde ningún lugar que hayan visitado hasta ahora y, por lo tanto, no saben que existe. Por supuesto, el enlace no debe ser público para que esto funcione, por lo tanto, asegúrese de que nadie lo publique.

Mucho mejor, en cambio, es requerir un secreto además del enlace en sí. Esto se puede hacer mediante la autenticación requerida para un directorio y la configuración de algunos usuarios, luego, proporcione a todos, no solo el enlace, sino también las credenciales de inicio de sesión (tal vez personalizadas). Incluso si los rastreadores conocen el enlace, no tienen las credenciales y, por lo tanto, no pueden acceder a él. Existen numerosos recursos sobre cómo configurar la autenticación, como Proteja un directorio mediante la autenticación básica .

    
respondido por el Steffen Ullrich 01.09.2018 - 09:17
fuente
3

Esto es exactamente para lo que sirve el estándar de exclusión de robots . Usted coloca un archivo de texto en la ruta conocida /robots.txt , y los rastreadores web compatibles lo obedecerán. En particular, puede excluir rastreadores específicos, o excluir rutas y recursos específicos para que no sean rastreados. Esto hará que su sitio web sea "invisible" para los motores de búsqueda estándar. Por supuesto, los robots de spam no necesariamente obedecerán las políticas de exclusión que configuras, por lo que no te protegerán de los robots que se comportan mal.

Para evitar que cualquier bot rastree cualquier página de su sitio, debe usar:

User-agent: *
Disallow: /
    
respondido por el forest 01.09.2018 - 00:29
fuente

Lea otras preguntas en las etiquetas