Inspector Unicode

Inspecciona cada carácter en texto para ver su codepoint Unicode y entidad HTML

¿Qué es y cómo funciona?

Unicode es un estándar de codificación universal de caracteres que asigna un punto de código único a cada carácter en todos los sistemas de escritura — más de 149.000 caracteres a partir de Unicode 15.1. Un punto de código Unicode se escribe como U+ seguido de 4-6 dígitos hexadecimales: U+0041 es "A", U+1F600 es 😀.

Esta herramienta inspecciona el texto a nivel Unicode: mostrando el punto de código, nombre oficial, categoría Unicode, asignación de script, bloque y secuencias de bytes UTF-8/UTF-16 para cada carácter.

Casos de uso

Preguntas frecuentes

¿Cuál es la diferencia entre un punto de código Unicode, un carácter y un glifo?

Punto de código: un número asignado por Unicode. Carácter: el significado abstracto. Glifo: la representación visual dibujada por una fuente. Un punto de código = un carácter (usualmente). Un glifo puede combinar múltiples puntos de código.

¿Cuál es la diferencia entre UTF-8, UTF-16 y UTF-32?

Los tres codifican los mismos puntos de código Unicode. UTF-32 usa exactamente 4 bytes por punto de código. UTF-16 usa 2 bytes para BMP y 4 bytes para caracteres superiores. UTF-8 usa 1-4 bytes por carácter. UTF-8 es la codificación web dominante.

¿Qué son las categorías Unicode?

Unicode asigna a cada punto de código una categoría general: L (Letra), M (Marca), N (Número), P (Puntuación), S (Símbolo), Z (Separador), C (Otro). La regex `\p{L}` coincide con cualquier letra Unicode.

¿Qué son las formas de normalización Unicode?

El mismo carácter visual puede tener múltiples representaciones Unicode: "é" puede ser U+00E9 (precompuesto) o U+0065 + U+0301 (descompuesto). Las formas de normalización: NFC (más compacto, usado en la web), NFD, NFKC, NFKD.

Texto

Mayúsculas / Minúsculas · Contador de palabras · Contador de caracteres · Generador Lorem Ipsum · Eliminar espacios extra · Ordenar líneas de texto