Ha compilado una lista ordenada de posibles indicadores para un clasificador. Algunos comentarios:
Primero: ¿Quién correría este clasificador? ¿Está hablando de un navegador o un complemento del navegador que verificará cada URL, o está diseñando un servicio de redireccionamiento de algún tipo? ¿Estás construyendo un motor de búsqueda? Obviamente, su clasificador solo funciona en casos como estos; no ayuda si usted es simplemente el propietario del verdadero "facebook.com" y desea proteger a sus usuarios para que no ingresen en "faecbook.com", porque nunca podrá ver el "faecbook.com" incorrecto.
Jugando al abogado del diablo a tus sugerencias:
Comprueba el dominio para detectar errores de tipificación : esto solo funciona si tienes una idea de cuál debería ser el nombre de dominio "real". Probablemente podría automatizar esto utilizando los recuentos de resultados de varios motores de búsqueda (o, si usted fuera un motor de búsqueda, mire su índice para identificar coincidencias cercanas) o intente acceder a las bases de datos de registro de dominios. O, como desarrollador de complementos de navegador, puede crear una base de datos central de dominios que visitan sus usuarios y luego determinar qué dominios son errores tipográficos utilizando algunas estadísticas simples. Sin embargo, si hicieras esto, tendrías que lidiar con serios problemas de privacidad.
Verifique la longitud de la URL de redireccionamiento : esto es peligroso: hay varios protocolos que requieren redirección y que pueden pasar mucha información a través de la URL (auth, por ejemplo). Tendría que excluir estos protocolos para evitar falsos positivos. Además, algunos marcos envían elementos como identificadores de sesión como parámetros en la URL como una alternativa cuando las cookies están deshabilitadas. Eso es difícil de distinguir de tu errata.
Cuente el número de redirecciones : no entiendo esto. Si se está refiriendo a la cantidad de redirecciones que realiza el navegador cuando se encuentra con una URL de error de escritura, no creo que esto funcione muy bien como indicador. Nuevamente, hay razones válidas para las redirecciones, y un número más alto no necesariamente implica una intención maliciosa. Además, no hay ninguna razón técnica para que los typosquatters hagan más de una redirección (de hecho, ni siquiera necesitan hacer una sola; las redirecciones son la forma más simple (y más barata) de reenviar al usuario a un tercero sitio, pero podrían tomar el tráfico y el impacto de la CPU y actuar como un proxy en lugar de hacer la redirección de http, lo que sería invisible para usted (solo haría que sea más costoso para los malos); por lo tanto, si construyes un clasificador de gran éxito basado en el número de redirecciones, los typosquatters podrían simplemente adaptarse.
Lista negra : nunca estará ni siquiera cerca de estar completa o actualizada. ¿Cómo lo compilarías? Si fueras un desarrollador de complementos de navegador, una forma sería registrar qué dominios visitan tus usuarios, como ya dije. Si fueras un motor de búsqueda, podrías hacer algo con tu índice, aunque la mayoría de los dominios typosquatter probablemente no serían indexados en absoluto, por lo que no habría manera de construir una lista negra incluso remotamente útil.
Una avenida adicional en la que podría pensar es tratar de clasificar la página de destino según su contenido. Usted dice que las páginas de destino intentan que usted proporcione información personal, ofrezca soporte técnico falso, etc. Es posible construir un clasificador en eso, algo así como los clasificadores para determinar si estamos tratando con jamón o correo no deseado en nuestro buzones de correo. También puede ejecutar una araña limitada en el sitio de destino para ver qué tan grande era; si solo ofreciera un puñado de páginas, eso sería un indicador adicional. Pero, una vez más, si tuvieras éxito, tus oponentes lo superarían fácilmente creando automáticamente un gran número de páginas adicionales falsas.