Zwei Texte vergleichen und Ähnlichkeitsprozentsatz berechnen
Ein Textähnlichkeitsprüfer vergleicht zwei Texte und gibt einen Prozentwert, der zeigt, wie ähnlich sie sind, mit der Levenshtein-Distanz — einem Maß dafür, wie viele Einzelzeichen-Änderungen (Einfügungen, Löschungen oder Ersetzungen) nötig sind, um eine Zeichenkette in die andere zu verwandeln. Je weniger Änderungen nötig sind, desto ähnlicher die Texte, und das Tool wandelt diese Änderungszahl in einen leicht lesbaren Ähnlichkeitswert um. Es beantwortet Fragen wie „wie nah sind diese zwei Versionen?" mit einer Zahl statt eines vagen Eindrucks.
Das ist nützlich, wo Beinahe-Treffer zählen: Beinahe-Duplikate in einer Liste erkennen, messen, wie stark ein Entwurf zwischen Überarbeitungen sich änderte, Namen oder Produkttitel mit leicht abweichender Schreibung unscharf abgleichen oder prüfen, wie nah ein Text einem anderen ist. Anders als ein exakter Vergleich, der nur „gleich oder verschieden" sagt, stuft die Levenshtein-Distanz den Grad des Unterschieds ab, was einen Prozentwert sinnvoll macht. Dieses Tool berechnet den Vergleich im Browser, sodass keiner der Texte hochgeladen wird.
Es ist die minimale Zahl von Einzelzeichen-Änderungen — Einfügungen, Löschungen oder Ersetzungen — die nötig sind, um eine Zeichenkette in eine andere zu verwandeln. „cat" zu „cot" ist eine Distanz von 1 (eine Ersetzung). Eine kleinere Distanz bedeutet ähnlicheren Text; das Tool wandelt diese Zahl in einen Prozentwert um.
Die Editierdistanz wird mit der Textlänge verglichen, die Zahl der Änderungen wird also in einen Ähnlichkeitswert von 0–100% skaliert. Zwei identische Texte erreichen 100%, und der Prozentwert sinkt, je mehr Änderungen nötig sind, was ein intuitives Maß statt einer rohen Änderungszahl gibt.
Nur Zeichen. Levenshtein misst die Editierdistanz an der Oberfläche, „big" und „large" erreichen also einen sehr verschiedenen Wert, obwohl sie dasselbe bedeuten. Es ist ideal, um Tippfehler und Beinahe-Duplikate zu fangen, erfasst aber keine semantische Ähnlichkeit wie ein bedeutungsbasierter Vergleich.
Standardmäßig behandeln Zeichenvergleiche Groß- und Kleinschreibung als verschieden, „Cat" und „cat" registrieren also einen kleinen Unterschied. Viele Prüfer lassen Sie die Schreibung zuerst normalisieren, wenn Sie sie ignorieren wollen, was nützlich ist, wenn Groß-/Kleinschreibung nicht als echter Unterschied zählen soll.
Groß-/Kleinschreibung · Wortzähler · Zeichenzähler · Lorem-Ipsum-Generator · Leerzeichen entfernen · Textzeilen sortieren