Un ejemplo clásico de literatura abierta sería el Proyecto Gutenberg de libros electrónicos de libre acceso, pero también podría apegarse a grandes colecciones de correo electrónico como el conjunto de datos de Enron que podrían Refleja mejor las distribuciones de frecuencia reales en las comunicaciones entre humanos, o incluso rastrear todos los artículos de Wikipedia .
Los dos primeros recursos mencionados se pueden encontrar en la nube de datos científicos abierta .
Los archivos de Wikipedia de muchos idiomas diferentes también se pueden encontrar en línea.
Si decide rastrear los datos usted mismo, tenga en cuenta que las frecuencias difieren según el idioma en que se escribe el texto sin formato antes de cifrarlas con uno de los sistemas criptográficos débiles que conservan la frecuencia. Elija datos de muestra en el idioma correcto o sus resultados pueden inducirle a error.
Sin embargo, tenga en cuenta que no es necesario reinventar todo desde cero.
La distribución de frecuencia es un tema bien investigado y su script podría usar tablas precomputadas de otras personas.
Esto es especialmente interesante, ya que el análisis de frecuencia tiene solo un propósito educativo y en su mayoría no se puede utilizar para analizar criptografía del mundo real.
El artículo de wikipedia sobre frecuencias de letras es una buena fuente para muchos idiomas diferentes. Vuelva a verificar sus fuentes para asegurarse de cómo se construyeron (por ejemplo, las inglesas se toman de un diccionario, mientras que las portuguesas se toman de la literatura).