¿Cómo hacen las personas para que sus sitios web no puedan buscarse a través de google ect.?

-4

Las personas comúnmente se refieren a la "web profunda" como la clase de sitios web que no se pueden encontrar a través de los principales motores de búsqueda. Usan URLs realmente complicadas que no tienen ningún sentido en el valor nominal, pero mi entendimiento es que Google también revisa el contenido de las páginas web, por lo que los sitios web del mercado negro ect. Debería aparecer de esta manera, ya que las personas suelen buscar información sobre drogas, etc. y todo lo "incompleto" (y no incompleto) en la web profunda.

¿Qué me estoy perdiendo aquí?

    
pregunta thinksinbinary 27.01.2017 - 15:50
fuente

4 respuestas

7
  

La gente comúnmente se refiere a la "web profunda" como la clase de sitios web que   No se puede encontrar a través de los principales motores de búsqueda. Usan realmente   URL complicadas que no tienen ningún sentido a simple vista,

Estás confundiendo un par de ideas aquí. Es posible que desee leer Cómo aclarar la confusión - Deep Web vs. Dark Web .

La "web profunda" consiste en aquellas páginas web que no están indexadas en los motores de búsqueda. Debe saber cómo llegar para obtenerlos o seguir los enlaces en una página web. Esto se debe principalmente a la convención de robots, como señala @OscarAkaElvis.

Note la similitud entre "web profunda" y "enlace profundo": enlace profundo significa proporcionar enlaces directos a páginas enterradas dentro de la jerarquía de otro servidor; el servidor de alojamiento puede haber bloqueado los robots para dirigir el tráfico a través de sus páginas principales (y anuncios, generalmente). Los "enlaces profundos" permiten a las personas pasar por alto ese flujo, y ha habido acción legal de ida y vuelta sobre haciéndolo.

La "web oscura" consiste en páginas web que están aún más ocultas y, sí, dependen en cierta medida de las direcciones de servicio ocultas de Tor ("URL complicadas que no tienen ningún sentido"). Es probable que estos también estén protegidos a través de robots, pero como los robots son un protocolo voluntario, cualquiera que se preocupe puede ignorarlos. Google y Bing no van a tener buenos datos de búsqueda en sitios "oscuros", porque respetan a los robots. El FBI y la DEA, por otro lado, probablemente tienen un motor de búsqueda muy completo que no respeta a los robots.

Hay un excelente artículo llamado Está a punto de ser aún más fácil de ocultar en The Dark Web que habla sobre los servicios ocultos de Tor, cómo no están tan ocultos y cómo la próxima generación de servicios ocultos se volverá aún más difícil:

  

La próxima generación de servicios ocultos utilizará un método inteligente para   Proteger el secreto de esas direcciones. En lugar de declarar su   dirección .onion a los directorios de servicios ocultos, en su lugar, derivarán una   clave criptográfica única de esa dirección, y proporcione esa clave a la   Directorios de servicios ocultos. Cualquier usuario de Tor que busque un determinado escondite.   El servicio puede realizar esa misma derivación para verificar la clave y la ruta.   ellos mismos al sitio darknet correcto. Pero el servicio oculto.   El directorio no puede obtener la dirección .onion de la clave, lo que impide   snoops de descubrir cualquier dirección de red oscura secreta. “La red Tor   no le dará ninguna manera de aprender sobre una dirección de cebolla que usted   no lo sé ", dice Mathewson.

    
respondido por el gowenfawr 27.01.2017 - 16:14
fuente
1

agregue un archivo robots.txt en su directorio web raíz con este contenido:

User-agent: *
Disallow: /

Tiene la documentación aquí sobre el archivo robots.txt.

    
respondido por el OscarAkaElvis 27.01.2017 - 16:00
fuente
1
  

Usan una URL realmente complicada

Creo que te refieres a la url tipo ID de los servicios ocultos de TOR. Esto es en realidad una clave pública. La otra respuesta menciona el archivo robots.txt, pero esto es solo pedirle al robot de búsqueda muy bien que no busque más. No ofrece ninguna protección real.

Los servicios ocultos de

TOR funcionan haciendo que todos sepan que existen, pero no donde están. De esa manera, alguien podría alojar contenido ilegal y todos podrían verlo a través de TOR sin saber dónde está la máquina real. Esta seguridad se basa en la criptografía y no depende de que el robot de búsqueda cumpla con los estándares.

Para obtener más información sobre cómo se hace esto, consulte los documentos aquí: enlace

    
respondido por el J.A.K. 27.01.2017 - 16:08
fuente
1

Puedes poner Header set X-Robots-Tag "noindex, nofollow" en tu archivo de configuración .htaccess o apache

Si Google ya ha indexado su sitio, puede pedirles que lo eliminen mediante la Consola de búsqueda de Google en www.google.com/webmasters/

    
respondido por el BNolan 27.01.2017 - 19:54
fuente

Lea otras preguntas en las etiquetas