字符编码ASCII、Unicode、UTF-8以及验证

ASCII码：一共规定了128个字符，用1个字节（8位）来表示，最前1位是0没用上：0100 0001表示A；
Unicode：在ASCII码的基础上扩展，Unicode 只是一个符号集，它只规定了符号的二进制代码，却没有规定这个二进制代码应该如何存储（实现），对于英语字母，UTF-8 编码和 ASCII 码是相同的，Unicode 有多种存储方式；
UTF-8:UTF-8 是 Unicode 的实现方式之一，UTF-8 就是在互联网上使用最广的一种 Unicode 的实现方式，它是一种变长的编码方式。它可以使用1~4个字节表示一个符号，根据不同的符号而变化字节长度。UTF-8 的编码规则很简单，只有二条：
1. 对于单字节的符号，字节的第一位设为0，后面7位为这个符号的 Unicode 码。因此对于英语字母，UTF-8 编码和 ASCII 码是相同的。
2. 对于n字节的符号（n > 1），第一个字节的前n位都设为1，第n + 1位设为0，后面字节的前两位一律设为10。剩下的没有提及的二进制位，全部为这个符号
3. Unicode编码用UTF-8存储的对照表：

按上表规则：万字的Unicode编码是：U+4E07，二进制：0100 1110 0000 0111，UTF-8应该几个字节存储呢，根据上表4E07在范围序号3，也就是用3个字节存储，把万字的二进制拆分，填充x：

用notepad和notepad++验证结果，打开记事本notepad，输入万字，另存编码为：UTF-8，再用notepad++打开，选中文字——插件——Converter——ASCII->HEX

引用自：字符编码笔记：ASCII，Unicode 和 UTF-8