Nullbreite, bedingter Trennstrich und andere unsichtbare Unicode-Zeichen erkennen und entfernen
Unsichtbare Zeichen sind Unicode-Codepunkte, die keinen sichtbaren Platz einnehmen, aber erhebliche Probleme bei der Textverarbeitung, in Datenbanken, APIs und Benutzeroberflächen verursachen können. Die häufigsten: Nullbreites Leerzeichen (U+200B), Byte-Reihenfolge-Markierung (U+FEFF), Nullbreiter Verbinder (U+200D).
Dieses Tool erkennt und entfernt unsichtbare Zeichen aus Text und hebt genau hervor, wo sie vorkommen und welcher Unicode-Codepunkt jedes davon ist.
Die BOM (U+FEFF) am Anfang einer UTF-8-Datei ist technisch ein unsichtbares Zeichen. In UTF-8 ist die BOM unnötig und verursacht Probleme. Sie kann sicher aus UTF-8-Text und UTF-8-HTML-Dateien entfernt werden.
ZWJ (U+200D) wird legitim in Emoji-Sequenzen verwendet: 👨👩👧👦 ist tatsächlich vier separate Emoji, die durch U+200D verbunden sind. Das Entfernen von ZWJ aus Emoji-Sequenzen trennt sie.
Nullbreites Leerzeichen (U+200B) wird in der Webtypografie als "weicher Umbruchpunkt" verwendet. Das Einfügen ermöglicht Zeilenumbrüche ohne sichtbaren Bindestrich. Sie sind visuell unsichtbar, brechen aber die Zeichenkettenübereinstimmung.
Regex: `/[\u200B-\u200D\uFEFF\u00AD\u200E\u200F]/g` für die häufigsten. In Python: `import unicodedata; unicodedata.category(c)` für Kategorien Cf, Cc und Zs.
Groß-/Kleinschreibung · Wortzähler · Zeichenzähler · Lorem-Ipsum-Generator · Leerzeichen entfernen · Textzeilen sortieren