字符编码

# -*- coding: utf-8 -*-

#字符编码

#字符编码用到的前两个知识点
'''
    储备知识点：
    1.计算机系统分为三层：
        应用程序
        操作系统
        计算机硬件：CPU、内存、硬盘

    2.运行python程序的三个步骤
        （1）先启动python解释器
        （2）再将python文件当作普通的文本读入内容
        （3）解释执行读入内存的代码，开始识别语法

'''

'''
什么是字符编码

    1Bytes字节 = 8bit二进制位

    ASCII：只能识别英文字符       
        1个英文字符1个Bytes字节 
        e.g. len(b'ABC') = 3
             len(b'A') = 1
    
    GBK:能识别汉字与英文
        1汉字=2Bytes=16bit，
        1英文字符=1Bytes=8bit
        
    Shift-JIS   日本字符
    ks_c_5601-1987 韩国编码
    TIS-620     泰国编码

    unicode：能够识别万国字符
        1字符（英文）= 2Bytes = 16bit
        相比较ASCII python只占1*6个字节，而unicode需要12个字节
        两大特点：
          能够兼容万国字符
          与各个国家的字符编码都有映射关系

    utf-8：是unicode的转换格式 全称：unicode transformation format
        1英文字符 = 1Bytes字节
        1汉字 = 3Bytes

'''
'''
重点理论：
    编码与解码：
    字符通过编码变成 unicode的二进制 再通过编码变成GBK的二进制
    GBK的二进制 就可以通过解码 变成unicode的二进制 再通过解码 
                变成人类看的懂的字符
                
    解决乱码的核心法则：
    字符用什么编码格式编码的，就应该用什么编码格式进行解码
    
    python2：ASCII
    python3：UTF-8
    
    通过文件头可以修改python解释器默认使用的字符编码
    在文件首行写:#coding:文件当初存的时候用的字符编码

    针对python2解释器中定义字符串应该:
        x=u"上"
    对于python3解释即便是x="上"不加u前缀也是存成unicode
    
    在python3中
        x='上' # '上'存成了uncidoe

        unicode--------encode----------->gbk
        res=x.encode('gbk') #res是gbk格式的二进制，称之为bytes类型
        字符---编码-->unicode的二进制-------编码----->GBK的二进制
        
        gbk(bytes类型)-------decode---------->unicode
        y=res.decode('gbk') #y就是unicode
        BK的二进制-----解码-->unicode的二进制----解码->字符
        
'''
# 关于编码的核心操作：
'''
    1.编写python文件，首行应该加文件头： #coding：文件存时用的编码
    2.用python2写程序，定义字符串应该加前缀u，如 x = u'上'
    3.python3中的字符串都是unicode编码的，python3的字符串encode之后可以得到bytes类型
    
'''
'''
为何字符要编码
    人类与计算机打交道用的都是人类的字符,而计算机无法识别人类的字符,只能识别
    二进制,所以必须将人类的字符编码成计算机能识别的二进制数字.
'''