¿Estrategia de seguridad de Robots.txt?

6

¿Hay una manera de tener básicamente una política de permitir todo en su dominio de nivel superior, y cualquier subdominio no lo permite todo? Preferiría que mis servidores de aplicaciones públicas no se indexen, pero por lo que puedo decir, ningún robot está encuestando por robots.txt cuando salta de nuestro dominio de nivel superior a un subdominio a través de un enlace.

Siempre he sentido que hacer un mapa de todos los lugares prohibidos para robots.txt está regalando una hoja de ruta a cualquiera que quiera saber dónde están las cosas buenas.

¿Qué tipo de estrategias de seguridad de Robots.txt serían las mejores para un entorno de aplicación web?

    
pregunta neil 31.01.2012 - 04:44
fuente

5 respuestas

7

Usted es incorrecto al suponer que se ignoran los robots.txt en subdominios. La mayoría de los motores de búsqueda capturarán y obedecerán el archivo robots.txt para subdominios individuales.

Si lo desea, puede indicar a las arañas que no indexen los elementos de su sitio web sin incluirlos en el archivo robots.txt, a través de:

  1. Agregar <meta name="robots" content="noindex" /> al HTML de las páginas web
  2. Agregar X-Robots-Tag: noindex a sus encabezados HTTP

Más detalles disponibles aquí

Sin embargo, independientemente de esto, no debe confiar en robots.txt por seguridad. En lo que se está inclinando hacia aquí es seguridad a través de la oscuridad , que es ampliamente considerada como una mala idea.

    
respondido por el Andy Smith 31.01.2012 - 10:41
fuente
6

En cuanto a la seguridad, el uso de robots.txt tiene dos reglas.

  1. No intente implementar ninguna seguridad a través de robots.txt . El archivo de robots no es más que una sugerencia amable, y aunque la mayoría de los rastreadores de motores de búsqueda lo respetan, los rastreadores malintencionados se ríen y continúan con su negocio. Si está vinculado a, se puede encontrar.
  2. No exponga información interesante a través de robots.txt . Específicamente, si confía en la URL para controlar el acceso a ciertos recursos (que es un gran timbre de alarma por sí mismo), agregarlo a robots.txt solo empeorará el problema: un atacante que escanea robots.txt ahora verá el secreto URL que intentabas ocultar y concentra tus esfuerzos en esa parte de tu sitio (no quieres que esté indexado, y se llama 'sekrit-admin-part-do-not-not-not-anyone', por lo que probablemente sea interesante).

Entonces, por todos los medios, utilice robots.txt para indicar a los motores de búsqueda qué partes de su sitio desea que indexen y cuándo volver a visitarlas, pero nunca las utilice por seguridad. Si tiene cosas que ocultar, use la protección real (y si no quiere que aparezca algo en los resultados de los motores de búsqueda, es probable que deba protegerla con una contraseña de todos modos).

    
respondido por el tdammers 31.01.2012 - 13:32
fuente
5

Nunca debe confiar en robots.txt para ofrecerle ningún tipo de discreción o seguridad.

Claro, los motores grandes lo respetarán, pero cualquiera puede escribir un rastreador y encontrar "lo bueno", como lo llamaste.

Si hay un recurso en su servidor web al que no quiere que todos puedan acceder, debe restringir los permisos utilizando .htaccess o un mecanismo similar, dependiendo del servidor.

    
respondido por el Kenny Rasschaert 31.01.2012 - 07:51
fuente
2

Como dijo Kenny, no confíe en robots.txt para la seguridad. Si no desea que se indexe una página, tiene tres opciones ( si el rastreador sigue las pautas, que algunas no):

  1. agregue un rel=nofollow,noindex para vincular etiquetas que un rastreador no debería seguir o indexar.
  2. Agregue un archivo robots.txt a cada dominio y configure el archivo robots.txt en los subdominios en deny /
  3. Agregue la etiqueta de encabezado <meta name="robots" content="noindex,nofollow" /> a cada página que los rastreadores no deberían indexar.
  4. (opcional) También hay un encabezado HTTP X-Robots-Tag: noindex,nofollow que hace lo mismo que la etiqueta del encabezado.

Habrá rastreadores que ignoren esto, pero los grandes deben seguir estas reglas y no indexar estas páginas.

    
respondido por el Andreas Arnold 31.01.2012 - 08:50
fuente
0

Como todos lo han mencionado, su archivo robots.txt no proporciona un mecanismo de seguridad, y si desea indicar a los rastreadores que NO indexen sus subdominios, puede usar archivos robots.txt individuales para cada subdominio. Aquí es cómo se vería uno de esos archivos robots.txt:

Usuario-agente: *
No permitir: /

Para obtener más información sobre robots.txt, aquí hay algunos recursos:

respondido por el webgnomes 05.02.2012 - 09:11
fuente

Lea otras preguntas en las etiquetas