Trabajé en este problema para un sistema de análisis de correo electrónico, y puedo decir que las propiedades léxicas de las URL para la malicia son mínimas, especialmente con las restricciones que está imponiendo.
Es cierto que las URL maliciosas a menudo "parecen aleatorias", pero eso se debe a que su experiencia ha transformado "imgur.com/gallery/lBKRZ" en "galería de servidores de imágenes inofensivas", pero "is1.ecds.girfc.com/ljbm17vkel" es tremendamente absurdo ... hasta que descubras que es Image Server 1 en el almacén de datos de la costa este para la colección libre de Getty Images.
Es posible asignar respuestas heurísticas basadas únicamente en el valor de la URL, pero en la práctica, la ponderación del valor de la URL tiende a ser tan pequeña que se desvanece en la poca importancia cuando se compara con las heurísticas de contenido. Por ejemplo, tomar esta URL:
super-zakonym.ru
¿Cuál es la parte alarmante de esta URL? ¿La mezcla de inglés y ruso? ¿El hecho de que se traduzca en "Super Legit"? ¿El hecho de que el ruso esté mal escrito?
¿O es simplemente que es un TLD RU?