Inspecciona cada carácter en texto para ver su codepoint Unicode y entidad HTML
Unicode es un estándar de codificación universal de caracteres que asigna un punto de código único a cada carácter en todos los sistemas de escritura — más de 149.000 caracteres a partir de Unicode 15.1. Un punto de código Unicode se escribe como U+ seguido de 4-6 dígitos hexadecimales: U+0041 es "A", U+1F600 es 😀.
Esta herramienta inspecciona el texto a nivel Unicode: mostrando el punto de código, nombre oficial, categoría Unicode, asignación de script, bloque y secuencias de bytes UTF-8/UTF-16 para cada carácter.
Punto de código: un número asignado por Unicode. Carácter: el significado abstracto. Glifo: la representación visual dibujada por una fuente. Un punto de código = un carácter (usualmente). Un glifo puede combinar múltiples puntos de código.
Los tres codifican los mismos puntos de código Unicode. UTF-32 usa exactamente 4 bytes por punto de código. UTF-16 usa 2 bytes para BMP y 4 bytes para caracteres superiores. UTF-8 usa 1-4 bytes por carácter. UTF-8 es la codificación web dominante.
Unicode asigna a cada punto de código una categoría general: L (Letra), M (Marca), N (Número), P (Puntuación), S (Símbolo), Z (Separador), C (Otro). La regex `\p{L}` coincide con cualquier letra Unicode.
El mismo carácter visual puede tener múltiples representaciones Unicode: "é" puede ser U+00E9 (precompuesto) o U+0065 + U+0301 (descompuesto). Las formas de normalización: NFC (más compacto, usado en la web), NFD, NFKC, NFKD.
Mayúsculas / Minúsculas · Contador de palabras · Contador de caracteres · Generador Lorem Ipsum · Eliminar espacios extra · Ordenar líneas de texto