Ispeziona ogni carattere nel testo per vedere il suo codepoint Unicode ed entità HTML
Unicode è uno standard universale di codifica dei caratteri che assegna un punto di codice univoco a ogni carattere in tutti i sistemi di scrittura — oltre 149.000 caratteri a partire da Unicode 15.1. Un punto di codice Unicode viene scritto come U+ seguito da 4-6 cifre esadecimali.
Questo strumento ispeziona il testo a livello Unicode: mostrando il punto di codice, il nome ufficiale, la categoria Unicode, l'assegnazione dello script, il blocco e le sequenze di byte UTF-8/UTF-16 per ogni carattere.
Punto di codice: un numero assegnato da Unicode. Carattere: il significato astratto. Glifo: la rappresentazione visuale disegnata da un font. Un punto di codice = un carattere (di solito). Un glifo può combinare più punti di codice.
Tutti e tre codificano gli stessi punti di codice Unicode. UTF-32 usa esattamente 4 byte per punto di codice. UTF-16 usa 2 byte per BMP e 4 byte per caratteri superiori. UTF-8 usa 1-4 byte. UTF-8 è la codifica web dominante.
Unicode assegna a ogni punto di codice una categoria generale: L (Lettera), M (Segno), N (Numero), P (Punteggiatura), S (Simbolo), Z (Separatore), C (Altro). La regex `\p{L}` corrisponde a qualsiasi lettera Unicode.
Lo stesso carattere visuale può avere multiple rappresentazioni Unicode: "é" può essere U+00E9 (precomposto) o U+0065 + U+0301 (decomposto). Forme di normalizzazione: NFC (la più compatta, usata sul web), NFD, NFKC, NFKD.
Maiuscolo / Minuscolo · Contatore di parole · Contatore di caratteri · Generatore Lorem Ipsum · Rimuovi spazi extra · Ordina righe di testo