Analyseur de fréquence

Analyser les fréquences de caractères, mots ou bigrammes dans n'importe quel texte

Qu'est-ce que c'est et comment ça marche ?

L'analyse de fréquence des caractères et des mots compte combien de fois chaque caractère ou mot apparaît dans un texte. C'est la technique fondamentale derrière la cryptanalyse classique : en anglais, la lettre E est la plus commune (~13%), suivie de T (9,1%), A (8,2%). L'analyse de fréquence a brisé tous les chiffrements monoalphabétiques de l'histoire.

Les usages modernes vont au-delà de la cryptographie : l'analyse de fréquence des mots identifie les termes les plus courants pour la recherche de mots-clés, le prétraitement NLP, l'analyse de contenu et l'analyse stylométrique.

Cas d'usage

Questions fréquentes

Quelles sont les lettres les plus courantes en anglais ?

Par ordre de fréquence : E (12,7%), T (9,1%), A (8,2%), O (7,5%), I (7,0%), N (6,7%), S (6,3%), H (6,1%), R (6,0%). Le moyen mnémotechnique "ETAOIN SHRDLU" couvre les 12 plus courantes.

Quelle est la différence entre fréquence de caractères et fréquence de mots ?

La fréquence de caractères compte les lettres individuelles. La fréquence de mots compte les mots entiers. Pour la cryptanalyse, la fréquence de caractères est clé ; pour le NLP, la fréquence de mots.

Qu'est-ce que la loi de Zipf ?

La loi de Zipf stipule que dans le langage naturel, la fréquence d'un mot est inversement proportionnelle à son rang : le 2ème mot le plus fréquent apparaît environ moitié moins souvent que le 1er.

Comment l'indice de coïncidence diffère-t-il de la simple analyse de fréquence ?

L'indice de coïncidence (IC) mesure la probabilité que deux caractères aléatoirement choisis soient identiques. Anglais : IC ≈ 0,065 ; texte aléatoire : IC ≈ 0,038.

Données

Visionneuse CSV · Générateur de fausses données · Trieur de listes · Statistiques de liste numérique · Opérations de tableaux / ensembles · Chercheur de lignes dupliquées