Frequenzanalysator

Zeichen-, Wort- oder Bigramm-Häufigkeiten in beliebigem Text analysieren

Was ist das und wie funktioniert es?

Häufigkeitsanalyse von Zeichen und Wörtern zählt, wie oft jedes Zeichen oder Wort in einem Text vorkommt. Es ist die grundlegende Technik der klassischen Kryptoanalyse: Im Englischen ist E der häufigste Buchstabe (~13%), gefolgt von T (9,1%), A (8,2%). Häufigkeitsanalyse hat alle monoalphabetischen Chiffren der Geschichte gebrochen.

Moderne Anwendungen gehen über Kryptografie hinaus: Wortfrequenzanalyse identifiziert häufigste Begriffe für Keyword-Recherche, NLP-Vorverarbeitung, Inhaltsanalyse und stylometrische Analyse.

Anwendungsfälle

Häufige Fragen

Was sind die häufigsten Buchstaben im Englischen?

Nach Häufigkeit: E (12,7%), T (9,1%), A (8,2%), O (7,5%), I (7,0%), N (6,7%), S (6,3%), H (6,1%), R (6,0%). Das Merkwort "ETAOIN SHRDLU" umfasst die 12 häufigsten.

Was ist der Unterschied zwischen Zeichen- und Wortfrequenz?

Zeichenfrequenz zählt einzelne Buchstaben. Wortfrequenz zählt ganze Wörter als Token. Für Kryptoanalyse ist Zeichenfrequenz entscheidend; für NLP die Wortfrequenz.

Was ist das Zipf'sche Gesetz?

Besagt, dass im natürlicher Sprache die Häufigkeit eines Wortes umgekehrt proportional zu seinem Rang ist: das 2.-häufigste Wort erscheint etwa halb so oft wie das 1.

Wie unterscheidet sich der Koinzidenzindex von einfacher Frequenzanalyse?

Der Koinzidenzindex (IC) misst die Wahrscheinlichkeit, dass zwei zufällig gewählte Zeichen gleich sind. Englisch: IC ≈ 0,065; Zufallstext: IC ≈ 0,038.

Daten

CSV-Betrachter · Testdaten-Generator · Listen-Sortierer · Zahlenlistenstatistik · Array-/Mengenoperationen · Duplikatzeilen-Finder