He visto un aumento de solicitudes 'HEAD' en mi servidor web access.log. ¿Para qué son estas peticiones? ¿Debo deshabilitar este método en mis configuraciones de servidor web?
Cita relevante del enlace:
HEAD
Solicita una respuesta idéntica a la que correspondería a una solicitud GET, pero sin el cuerpo de la respuesta. Esto es útil para recuperar metainformación escrita en encabezados de respuesta, sin tener que transportar todo el contenido.
Si lo deshabilitas, solo aumentarías tu costo de rendimiento. Una persona puede obtener la misma información con un GET, por lo que si intentara hacer algo malicioso, podría usar un GET. Excepto, de esta manera, están siendo agradables y no te obligan a enviar el cuerpo de la solicitud.
EDITAR: No sé de qué provendrían las solicitudes, aunque ciertamente puedo pensar en usos. Cualquier otra persona que sepa o quiera participar, por favor hágalo. Soy un poco curioso, yo mismo. Por lo tanto, wiki de la comunidad.
Todo lo que dijo Parthian era acertado. Las solicitudes HEAD son como una solicitud GET 'corta' que evita el tráfico extra de la red y, potencialmente, la sobrecarga de representación de una solicitud GET.
Hay varias razones por las que usted, su navegador o su motor de búsqueda pueden querer hacer una solicitud HEAD. Es posible que algunos sitios web simplemente le estén quitando información meta, y su respuesta más pequeña es para su beneficio. Es más probable que su navegador o los motores de búsqueda estén usando solicitudes HEAD para ver si sus versiones en caché de sus páginas aún están actualizadas.
Los clientes deben usar los campos "fecha" y "caducidad" del encabezado de respuesta cuando la página se almacena en caché para determinar cuándo será la próxima vez que visiten su sitio para una actualización. Además, los encabezados de respuesta a veces pueden incluir una fecha modificada que también podría usarse para indicar cuándo se debe actualizar su página.
Bloquea la solicitud de cabecera y observa los aumentos en las solicitudes GET o HEAD de los raspadores falsos. LUEGO BLOQUEE SU IPS. Lo curioso es que sus BOTS son tan ESTÚPIDOS que no entienden la pista y siguen regresando para más intentos. En ese momento, los envía en una redirección 301 a algún otro lugar (es decir, a otra persona y al ancho de banda). Por ejemplo, el 98% de todo el tráfico de búsqueda de INTERNET proviene solo de Google (86% del mercado) y BING y YAHOO. hasta el 12% restante) - NO HAY NINGUNA RAZÓN PARA PERMITAR QUE TODO el probador de cabeza SCUMMY tenga acceso. ¡No los necesitas! Son prescindibles. Y no hay razón para alentar su tráfico.
Mi sitio maneja cerca de 1 millón de visitantes por día ... de los 1 millón -500,000 provienen de rastreadores de contenido sin sentido y motores de búsqueda que apenas se usan. Al bloquear a esos payasos, libero el 50% de mi ancho de banda y los ciclos del servidor para manejar el tráfico LEGIT. Es una pena que los campistas inteligentes detrás de Apache y Linus nunca nos hayan dado un NULO al que podamos enviar el tráfico inútil.