Frecuencia de caracteres

Analiza la frecuencia de caracteres en texto con visualización de gráfico de barras

¿Qué es y cómo funciona?

El análisis de frecuencia de caracteres cuenta con qué frecuencia aparece cada carácter en un texto, expresando los resultados como conteos y porcentajes. Es una de las técnicas más antiguas en criptoanálisis — el matemático árabe Al-Kindi la describió en el siglo IX. En inglés, las frecuencias esperadas de caracteres están bien establecidas: E (~12,7%), T (~9,1%), A (~8,2%).

Más allá de la criptografía, el análisis de frecuencia de caracteres se usa en compresión de datos (codificación Huffman), procesamiento del lenguaje natural y análisis tipográfico.

Casos de uso

Preguntas frecuentes

¿Qué es el orden ETAOIN SHRDLU?

ETAOIN SHRDLU es el orden aproximado de las 12 letras más comunes en inglés (E, T, A, O, I, N, S, H, R, D, L, U). Se hizo famoso porque las máquinas Linotype organizaban las teclas en este orden por eficiencia.

¿Cómo rompe el análisis de frecuencias un cifrado de sustitución?

En un cifrado de sustitución simple, cada letra en texto claro se mapea consistentemente a una letra en texto cifrado. El análisis de frecuencias explota que esta asignación preserva las frecuencias de letras — la letra más común en texto cifrado corresponde a la más común en texto claro (E en inglés).

¿Qué es la Ley de Zipf?

La Ley de Zipf establece que en el lenguaje natural, la frecuencia de cualquier palabra es inversamente proporcional a su rango en la tabla de frecuencias: la palabra más común aparece ~2× más que la 2ª más común.

¿Qué es la codificación Huffman?

La codificación Huffman es un algoritmo de compresión de datos sin pérdida que asigna códigos binarios más cortos a los caracteres más frecuentes. Usado en deflate (ZIP, gzip, PNG), JPEG, MP3.

Texto

Mayúsculas / Minúsculas · Contador de palabras · Contador de caracteres · Generador Lorem Ipsum · Eliminar espacios extra · Ordenar líneas de texto