编码与字符集（Encoding & Charset）

编码（Encoding）和字符集（Charset）经常被混用，但它们不是一回事。

字符集（Charset）

字符集是“有哪些字符”的清单，以及这些字符对应的编号（码点）。

比如 Unicode 字符集里：

编码是“如何把码点变成字节序列”。

例如 UTF-8 是一种编码方式：

不同编码方式决定了“同一个字符”如何变成不同的字节序列。

乱码通常是“用错了解码方式”。

例如：

结果就会出现“看起来像噪音”的字符。

理解编码与字符集的区别，是理解“文本为何会坏掉”的基础。