¿Cómo puedo detectar que mi página es solicitada por un robot, pero no por el navegador del usuario? Soy consciente de los trucos básicos:
- Esté atento a los encabezados o urls incorrectos. Por ejemplo, urls con hash o encabezado con url completo - GET www.yoursite.com/test
- Detectar que varias direcciones no relacionadas fueron solicitadas directamente por algún IP (no lo suficientemente bueno)
- Esté atento a los encabezados que faltan
- Esté atento a los agentes de usuario obsoletos
¿Hay otras formas de detectar robots?
ACTUALIZACIÓN : algunos buenos robots se identifican en el encabezado Usuario-Agente:
User-Agent: Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)