Analiza frecuencias de caracteres, palabras o bigramas en cualquier texto
El análisis de frecuencia de caracteres y palabras cuenta cuántas veces aparece cada carácter o palabra en un texto. Es la técnica fundamental detrás del criptoanálisis clásico: en inglés, la letra E es la más común (~13%), seguida de T (9,1%), A (8,2%). El análisis de frecuencias rompió todos los cifrados monoalfabéticos de la historia.
Los usos modernos van más allá de la criptografía: el análisis de frecuencia de palabras identifica los términos más comunes en un corpus para investigación de palabras clave, preprocesamiento NLP, análisis de contenido y análisis estilométrico.
En orden de frecuencia: E (12,7%), T (9,1%), A (8,2%), O (7,5%), I (7,0%), N (6,7%), S (6,3%), H (6,1%), R (6,0%). El mnemónico "ETAOIN SHRDLU" cubre las 12 más comunes.
La frecuencia de caracteres cuenta letras individuales. La frecuencia de palabras cuenta palabras completas como tokens. Para criptoanálisis, la frecuencia de caracteres es clave; para NLP, la frecuencia de palabras.
La Ley de Zipf establece que en el lenguaje natural, la frecuencia de una palabra es inversamente proporcional a su rango: la 2ª palabra más común aparece aproximadamente la mitad de veces que la 1ª.
El Índice de Coincidencia (IC) mide la probabilidad de que dos caracteres elegidos al azar sean iguales. El inglés tiene IC ≈ 0,065; el texto aleatorio IC ≈ 0,038.
Visor de CSV · Generador de datos falsos · Ordenador de listas · Estadísticas de lista numérica · Operaciones de arrays / conjuntos · Buscador de líneas duplicadas