Supprimeur de caractères invisibles

Détecter et supprimer les caractères Unicode invisibles : espace de largeur nulle, trait d'union conditionnel

Qu'est-ce que c'est et comment ça marche ?

Les caractères invisibles sont des points de code Unicode qui n'occupent pas d'espace visible mais peuvent causer des problèmes significatifs dans le traitement du texte, les bases de données, les API et les interfaces utilisateur. Les plus courants : Espace de largeur zéro (U+200B), Marque d'ordre d'octet (U+FEFF, le BOM), Joncteur de largeur zéro (U+200D).

Cet outil détecte et supprime les caractères invisibles du texte, en mettant en évidence exactement où ils se trouvent et quel point de code Unicode est chacun d'eux.

Cas d'usage

Questions fréquentes

Qu'est-ce que le BOM Unicode et est-il toujours sûr de le supprimer ?

Le BOM (U+FEFF) en début d'un fichier UTF-8 est techniquement un caractère invisible. En UTF-8, le BOM est inutile et cause des problèmes. Il peut être supprimé en toute sécurité des fichiers UTF-8.

À quoi servent légitimement les joncteurs de largeur zéro ?

ZWJ (U+200D) est utilisé légitimement dans les séquences d'emoji : 👨‍👩‍👧‍👦 est en réalité quatre emoji séparés reliés par U+200D. Supprimer ZWJ des séquences d'emoji les sépare.

Pourquoi des espaces de largeur zéro apparaissent-ils dans le texte de sites web ?

L'espace de largeur zéro (U+200B) est utilisé en typographie web comme "opportunité de coupure de ligne". Ils sont visuellement invisibles mais brisent la correspondance de chaînes.

Comment puis-je détecter les caractères invisibles par programmation ?

Regex : `/[\u200B-\u200D\uFEFF\u00AD\u200E\u200F]/g` pour les plus courants. En Python : `import unicodedata; unicodedata.category(c)` pour les catégories Cf, Cc et Zs.

Texte

Majuscules / Minuscules · Compteur de mots · Compteur de caractères · Générateur Lorem Ipsum · Supprimer les espaces · Trier les lignes de texte