Question 1

¿Cuál es la diferencia entre un punto de código Unicode, un carácter y un glifo?

Accepted Answer

Punto de código: un número asignado por Unicode. Carácter: el significado abstracto. Glifo: la representación visual dibujada por una fuente. Un punto de código = un carácter (usualmente). Un glifo puede combinar múltiples puntos de código.

Question 2

¿Cuál es la diferencia entre UTF-8, UTF-16 y UTF-32?

Accepted Answer

Los tres codifican los mismos puntos de código Unicode. UTF-32 usa exactamente 4 bytes por punto de código. UTF-16 usa 2 bytes para BMP y 4 bytes para caracteres superiores. UTF-8 usa 1-4 bytes por carácter. UTF-8 es la codificación web dominante.

Question 3

¿Qué son las categorías Unicode?

Accepted Answer

Unicode asigna a cada punto de código una categoría general: L (Letra), M (Marca), N (Número), P (Puntuación), S (Símbolo), Z (Separador), C (Otro). La regex `\p{L}` coincide con cualquier letra Unicode.

Question 4

¿Qué son las formas de normalización Unicode?

Accepted Answer

El mismo carácter visual puede tener múltiples representaciones Unicode: "é" puede ser U+00E9 (precompuesto) o U+0065 + U+0301 (descompuesto). Las formas de normalización: NFC (más compacto, usado en la web), NFD, NFKC, NFKD.

Inspector Unicode

¿Qué es y cómo funciona?

Casos de uso

Preguntas frecuentes

¿Cuál es la diferencia entre un punto de código Unicode, un carácter y un glifo?

¿Cuál es la diferencia entre UTF-8, UTF-16 y UTF-32?

¿Qué son las categorías Unicode?

¿Qué son las formas de normalización Unicode?

Texto