记住，永远不要在MySQL中使用“utf8”编码

聊聊架构 · 公众号 · 架构 · 2018-06-15 11:10

正文

MySQL 的“utf8”是一种“专属的编码”，它能够编码的 Unicode 字符并不多。

我要在这里澄清一下：所有在使用“utf8”的 MySQL 和 MariaDB 用户都应该改用“utf8mb4”，永远都不要再使用“utf8”。

那么什么是编码？什么是 UTF-8？

我们都知道，计算机使用 0 和 1 来存储文本。比如字符“C”被存成“01000011”，那么计算机在显示这个字符时需要经过两个步骤：

同样的：

几乎所有的网络应用都使用了 Unicode 字符集，因为没有理由使用其他字符集。

Unicode 字符集包含了上百万个字符。最简单的编码是 UTF-32，每个字符使用 32 位。这样做最简单，因为一直以来，计算机将 32 位视为数字，而计算机最在行的就是处理数字。但问题是，这样太浪费空间了。

UTF-8 可以节省空间，在 UTF-8 中，字符“C”只需要 8 位，一些不常用的字符，比如“💩”需要 32 位。其他的字符可能使用 16 位或 24 位。一篇类似本文这样的文章，如果使用 UTF-8 编码，占用的空间只有 UTF-32 的四分之一左右。

推荐文章

美团技术团队 · 可信实验白皮书系列03：随机对照实验

2 天前

架构师之路 · 上半年国内AI届最盛大，最高质量的大会是哪个？

2 天前

架构师之路 · 包你不知道，究竟如何从架构上保证，区块是匀速生成的？（第71讲）

2 天前

架构师之路 · 这么多人聊比特币，大部分人压根不懂什么是“挖矿”？（第70讲）

4 天前

字节跳动技术团队 · 掘金 AI 编程社区- 人人都是 AI 编程家竞赛

2 天前

杂学杂问 · 这位谁都敢骂的英国厨神，却被中国拉面师傅骂惨了...

8 年前

济宁生活网 · KTV聚会，这样的聚会以后别叫我！

8 年前

精英点评江西 · 五折家居梦，越砸越狂欢

7 年前

植物星球 · 螽斯羽诜诜兮宜尔子孙振振兮

7 年前

WallStreetTequila · 成功案例 | 英国非G5研究生逆袭拿下伦敦Mercer咨询Offer！

7 年前