专栏名称: 聊聊架构
聊聊架构
目录
相关文章推荐
美团技术团队  ·  可信实验白皮书系列03:随机对照实验 ·  2 天前  
字节跳动技术团队  ·  掘金 AI 编程社区- 人人都是 AI 编程家竞赛 ·  2 天前  
51好读  ›  专栏  ›  聊聊架构

记住,永远不要在MySQL中使用“utf8”编码

聊聊架构  · 公众号  · 架构  · 2018-06-15 11:10

正文

请到「今天看啥」查看全文


  • MySQL 的“utf8”是一种“专属的编码”,它能够编码的 Unicode 字符并不多。

  • 我要在这里澄清一下:所有在使用“utf8”的 MySQL 和 MariaDB 用户都应该改用“utf8mb4”,永远都不要再使用“utf8”。

    那么什么是编码?什么是 UTF-8?

    我们都知道,计算机使用 0 和 1 来存储文本。比如字符“C”被存成“01000011”,那么计算机在显示这个字符时需要经过两个步骤:

    1. 计算机读取“01000011”,得到数字 67,因为 67 被编码成“01000011”。

    2. 计算机在 Unicode 字符集中查找 67,找到了“C”。

    同样的:

    1. 我的电脑将“C”映射成 Unicode 字符集中的 67。

    2. 我的电脑将 67 编码成“01000011”,并发送给 Web 服务器。

    几乎所有的网络应用都使用了 Unicode 字符集,因为没有理由使用其他字符集。

    Unicode 字符集包含了上百万个字符。最简单的编码是 UTF-32,每个字符使用 32 位。这样做最简单,因为一直以来,计算机将 32 位视为数字,而计算机最在行的就是处理数字。但问题是,这样太浪费空间了。

    UTF-8 可以节省空间,在 UTF-8 中,字符“C”只需要 8 位,一些不常用的字符,比如“💩”需要 32 位。其他的字符可能使用 16 位或 24 位。一篇类似本文这样的文章,如果使用 UTF-8 编码,占用的空间只有 UTF-32 的四分之一左右。







    请到「今天看啥」查看全文