Estoy intentando detectar ataques de homógrafos y otros ataques en los que un atacante utiliza un nombre de dominio falso que parece visualmente similar a un nombre de dominio confiable (por ejemplo, bankofthevvest.com en lugar de bankofthewest.com).
¿Hay un diccionario o base de datos de caracteres visualmente similares que sea adecuado para el uso programático?
Por ejemplo, si busco "l", me gustaría recuperar una lista que indique que "l" es visualmente similar a "1" e "i" (al menos en algunas fuentes). Si busco "w", podría decirme que es visualmente similar a "vv" (en algunas fuentes). Si busco "d", podría decirme que es visualmente similar a "cl" (en algunas fuentes). Al menos por ahora, mi enfoque está en la similitud visual entre los caracteres ASCII. Está bien ignorar a Unicode. (Sin embargo, es una ventaja adicional si hay una lista que también conoce qué caracteres de Unicode son visualmente similares a cada carácter ASCII).
Si tal cosa ya existe, me gustaría evitar volver a inventar la rueda. ¿Ya existe tal lista?
Esto es lo que he encontrado hasta ahora:
-
Encontré ¿Hay un diccionario de caracteres Unicode visiblemente similares para el procesamiento de spam? , pero La pregunta se centra en Unicode, y las respuestas no resuelven realmente esta pregunta: proponen un mecanismo de detección alternativo.
-
Los siguientes dos trabajos de investigación diseñan UC-SimList , una lista de personajes visualmente similares. Sin embargo, se enfoca en los caracteres Unicode y no tiene similitud entre las letras ASCII (por ejemplo, l vs 1, vv vs w).
Anthony Y. Fu, Xiaotie Deng, Liu Wenyin, Greg Little. La metodología y una aplicación para luchar contra los ataques Unicode . SOUPS 2005.
Anthony Y. Fu, Wan Zhang, Xiaotie Deng, Liu Wenyin. Salvaguarda contra ataques Unicode: generación y aplicaciones de UC-SimList . WWW 2006.