Unsichtbare-Zeichen-Entferner

Nullbreite, bedingter Trennstrich und andere unsichtbare Unicode-Zeichen erkennen und entfernen

Was ist das und wie funktioniert es?

Unsichtbare Zeichen sind Unicode-Codepunkte, die keinen sichtbaren Platz einnehmen, aber erhebliche Probleme bei der Textverarbeitung, in Datenbanken, APIs und Benutzeroberflächen verursachen können. Die häufigsten: Nullbreites Leerzeichen (U+200B), Byte-Reihenfolge-Markierung (U+FEFF), Nullbreiter Verbinder (U+200D).

Dieses Tool erkennt und entfernt unsichtbare Zeichen aus Text und hebt genau hervor, wo sie vorkommen und welcher Unicode-Codepunkt jedes davon ist.

Anwendungsfälle

Häufige Fragen

Was ist die Unicode-BOM und ist es immer sicher, sie zu entfernen?

Die BOM (U+FEFF) am Anfang einer UTF-8-Datei ist technisch ein unsichtbares Zeichen. In UTF-8 ist die BOM unnötig und verursacht Probleme. Sie kann sicher aus UTF-8-Text und UTF-8-HTML-Dateien entfernt werden.

Wofür werden Nullbreite Verbinder legitim verwendet?

ZWJ (U+200D) wird legitim in Emoji-Sequenzen verwendet: 👨‍👩‍👧‍👦 ist tatsächlich vier separate Emoji, die durch U+200D verbunden sind. Das Entfernen von ZWJ aus Emoji-Sequenzen trennt sie.

Warum erscheinen nullbreite Leerzeichen in Text von Websites?

Nullbreites Leerzeichen (U+200B) wird in der Webtypografie als "weicher Umbruchpunkt" verwendet. Das Einfügen ermöglicht Zeilenumbrüche ohne sichtbaren Bindestrich. Sie sind visuell unsichtbar, brechen aber die Zeichenkettenübereinstimmung.

Wie kann ich unsichtbare Zeichen programmgesteuert erkennen?

Regex: `/[\u200B-\u200D\uFEFF\u00AD\u200E\u200F]/g` für die häufigsten. In Python: `import unicodedata; unicodedata.category(c)` für Kategorien Cf, Cc und Zs.

Text

Groß-/Kleinschreibung · Wortzähler · Zeichenzähler · Lorem-Ipsum-Generator · Leerzeichen entfernen · Textzeilen sortieren