Los proveedores de AV emplean varios métodos para reducir el tamaño de la base de datos. Una es la técnica de compresión, en la que el proveedor comprimirá la base de datos y los pondrá a disposición de los usuarios para que los descarguen.
La segunda es la generalización, una técnica utilizada en el aprendizaje automático. Usan expresiones de coincidencia de patrones o expresiones regulares para esto. Supongamos que un proveedor tiene 4 firmas con el siguiente formato:
aaaaa
aaaab
aaaac
aaaad
En lugar de tener definiciones separadas para cada uno de los anteriores, estas 4 definiciones se pueden generalizar a:
aaaa?
Aquí, ?
es un carácter comodín, que representa cualquier carácter. Esta técnica reduce significativamente el tamaño de la base de datos.
Sin embargo, aquí hay una advertencia. Supongamos que el producto AV encuentra aaaax
en algún software legítimo. Naturalmente, también se marca como un programa malicioso (en realidad, no lo es). Esto da lugar a falsos positivos. En tales casos, el proveedor de AV dará una excepción a aaaax
en su próxima actualización de la base de datos, para que no se marque en rojo en el futuro.
También puede haber otras técnicas, que pueden ser propietarias, pero las dos técnicas anteriores son generalmente de uso general.
Tal como se solicita en los comentarios, aquí están los enlaces para las técnicas de generalización:
Wikipedia
Intego Buscar para la detección genérica
Coincidencia de patrones en las GPU
Avira