unicode 和 utf-8 的关系和解释

首先一个字节就是8个晶体管同时发出的信号集，

unicode就是一套编码，所有的字符都用2个字节表示，不像gbk和gb2312既保持了以前的ansi/ascii的字符单个字节编码，有发明了两个字节保存中文和特殊字符编码，

uTF-8就是为了传输unicode,

UTF-8是这样做的：

1. 单字节的字符，字节的第一位设为0，对于英语文本，UTF-8码只占用一个字节，和ASCII码完全相同；
2. n个字节的字符(n>1)，第一个字节的前n位设为1，第n+1位设为0，后面字节的前两位都设为10，这n个字节的其余空位填充该字符unicode码，高位用0补足。

这样就形成了如下的UTF-8标记位：

0xxxxxxx
110xxxxx 10xxxxxx
1110xxxx 10xxxxxx 10xxxxxx
11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

作者：uuspider
链接：http://www.zhihu.com/question/23374078/answer/65352538
来源：知乎
著作权归作者所有，转载请联系作者获得授权。

作者：uuspider
链接：http://www.zhihu.com/question/23374078/answer/65352538

来源：知乎
著作权归作者所有，转载请联系作者获得授权。