Analizza le frequenze di caratteri, parole o bigrammi in qualsiasi testo
L'analisi della frequenza di caratteri e parole conta quante volte ogni carattere o parola appare in un testo. È la tecnica fondamentale alla base della crittoanalisi classica: in inglese, la lettera E è la più comune (~13%), seguita da T (9,1%), A (8,2%). L'analisi delle frequenze ha violato tutti i cifrari monoalfabetici della storia.
Gli usi moderni vanno oltre la crittografia: l'analisi della frequenza delle parole identifica i termini più comuni in un corpus per la ricerca di parole chiave, il preprocessing NLP, l'analisi del contenuto e l'analisi stilometrica.
In ordine di frequenza: E (12,7%), T (9,1%), A (8,2%), O (7,5%), I (7,0%), N (6,7%), S (6,3%), H (6,1%), R (6,0%). Il mnemonico "ETAOIN SHRDLU" copre le 12 più comuni.
La frequenza di caratteri conta le singole lettere. La frequenza di parole conta le parole intere come token. Per la crittoanalisi è chiave la frequenza di caratteri; per l'NLP quella delle parole.
La Legge di Zipf afferma che nel linguaggio naturale la frequenza di una parola è inversamente proporzionale al suo rango: la 2ª parola più comune appare circa la metà delle volte rispetto alla 1ª.
L'Indice di Coincidenza (IC) misura la probabilità che due caratteri scelti casualmente siano uguali. Inglese: IC ≈ 0,065; testo casuale: IC ≈ 0,038.
Visualizzatore CSV · Generatore dati fittizi · Ordinatore di liste · Statistiche lista numerica · Operazioni array / insiemi · Cercatore righe duplicate