Skip to content

Unicode / UTF-8

Unicode 是一个字符集,定义了“字符与编号(码点)”的映射。UTF-8 是一种编码方式,负责把码点变成字节序列。

一个直观例子

  • A 的码点是 U+0041
  • 用 UTF-8 编码时,就是一个字节:0x41

的码点是 U+4E2D,用 UTF-8 编码时需要 3 个字节。

为什么 UTF-8 流行

  • 兼容 ASCII:英文字符仍然是 1 字节。
  • 节省空间:对英文友好,对中文等多字节字符也能支持。
  • 互联网事实标准:Web 世界几乎都用它。

常见误解

  • Unicode 不是编码:Unicode 只是“码点表”。
  • UTF-8 不是字符集:UTF-8 只是编码方式。

进一步阅读

理解 Unicode / UTF-8 有助于避免乱码和文件编码问题。

CC-BY 4.0 Licensed