Inspecter chaque caractère dans le texte pour voir son point de code Unicode et entité HTML
Unicode est une norme universelle d'encodage de caractères qui attribue un point de code unique à chaque caractère dans tous les systèmes d'écriture — plus de 149 000 caractères à partir d'Unicode 15.1. Un point de code Unicode s'écrit U+ suivi de 4 à 6 chiffres hexadécimaux.
Cet outil inspecte le texte au niveau Unicode : en affichant le point de code, le nom officiel, la catégorie Unicode, l'attribution de script, le bloc et les séquences d'octets UTF-8/UTF-16 pour chaque caractère.
Point de code : un numéro attribué par Unicode. Caractère : la signification abstraite. Glyphe : la représentation visuelle dessinée par une police. Un point de code = un caractère (généralement). Un glyphe peut combiner plusieurs points de code.
Les trois encodent les mêmes points de code Unicode. UTF-32 utilise exactement 4 octets par point de code. UTF-16 utilise 2 octets pour BMP et 4 octets pour les caractères supérieurs. UTF-8 utilise 1 à 4 octets. UTF-8 est l'encodage web dominant.
Unicode attribue à chaque point de code une catégorie générale : L (Lettre), M (Marque), N (Nombre), P (Ponctuation), S (Symbole), Z (Séparateur), C (Autre). La regex `\p{L}` correspond à toute lettre Unicode.
Le même caractère visuel peut avoir plusieurs représentations Unicode : "é" peut être U+00E9 (précomposé) ou U+0065 + U+0301 (décomposé). Formes de normalisation : NFC (la plus compacte, utilisée sur le web), NFD, NFKC, NFKD.
Majuscules / Minuscules · Compteur de mots · Compteur de caractères · Générateur Lorem Ipsum · Supprimer les espaces · Trier les lignes de texte