Análisis de frecuencia [cerrado]

0

Empecé a estudiar criografía y el punto de partida obvio es el análisis de frecuencia. Como tarea para mí, pensé que sería bueno compilar un script que podría usarse para realizar el proceso de análisis de frecuencia. Una cosa que comencé a analizar fue obtener las estadísticas basadas en un diccionario. Posteriormente, aprendí que esto es incorrecto y que se pueden obtener mejores cifras de la literatura. Entonces, mi pregunta es esta ... ¿existen recomendaciones sobre literatura de código abierto que puedan usarse para este propósito?

Gracias,

MHibbin

    
pregunta MHibbin 18.02.2014 - 14:36
fuente

1 respuesta

3

Un ejemplo clásico de literatura abierta sería el Proyecto Gutenberg de libros electrónicos de libre acceso, pero también podría apegarse a grandes colecciones de correo electrónico como el conjunto de datos de Enron que podrían Refleja mejor las distribuciones de frecuencia reales en las comunicaciones entre humanos, o incluso rastrear todos los artículos de Wikipedia .

Los dos primeros recursos mencionados se pueden encontrar en la nube de datos científicos abierta . Los archivos de Wikipedia de muchos idiomas diferentes también se pueden encontrar en línea.

Si decide rastrear los datos usted mismo, tenga en cuenta que las frecuencias difieren según el idioma en que se escribe el texto sin formato antes de cifrarlas con uno de los sistemas criptográficos débiles que conservan la frecuencia. Elija datos de muestra en el idioma correcto o sus resultados pueden inducirle a error.

Sin embargo, tenga en cuenta que no es necesario reinventar todo desde cero. La distribución de frecuencia es un tema bien investigado y su script podría usar tablas precomputadas de otras personas. Esto es especialmente interesante, ya que el análisis de frecuencia tiene solo un propósito educativo y en su mayoría no se puede utilizar para analizar criptografía del mundo real. El artículo de wikipedia sobre frecuencias de letras es una buena fuente para muchos idiomas diferentes. Vuelva a verificar sus fuentes para asegurarse de cómo se construyeron (por ejemplo, las inglesas se toman de un diccionario, mientras que las portuguesas se toman de la literatura).

    
respondido por el audioPhil 18.02.2014 - 15:13
fuente

Lea otras preguntas en las etiquetas