Appearance
Unicode / UTF-8
Unicode 是一个字符集,定义了“字符与编号(码点)”的映射。UTF-8 是一种编码方式,负责把码点变成字节序列。
一个直观例子
A的码点是 U+0041- 用 UTF-8 编码时,就是一个字节:
0x41
而 中 的码点是 U+4E2D,用 UTF-8 编码时需要 3 个字节。
为什么 UTF-8 流行
- 兼容 ASCII:英文字符仍然是 1 字节。
- 节省空间:对英文友好,对中文等多字节字符也能支持。
- 互联网事实标准:Web 世界几乎都用它。
常见误解
- Unicode 不是编码:Unicode 只是“码点表”。
- UTF-8 不是字符集:UTF-8 只是编码方式。
进一步阅读
理解 Unicode / UTF-8 有助于避免乱码和文件编码问题。