python字符编码

1.codecs模块帮我们在读文件时自动转换编码

要读取非ASCII编码的文本文件，就必须以二进制模式打开，再解码。比如GBK编码的文件：

>>> f = open('/Users/michael/gbk.txt', 'rb')

>>> u = f.read().decode('gbk')

>>> u

u'u6d4bu8bd5'

>>> print u

测试

如果每次都这么手动转换编码嫌麻烦（写程序怕麻烦是好事，不怕麻烦就会写出又长又难懂又没法维护的代码），Python还提供了一个codecs模块帮我们在读文件时自动转换编码，直接读出unicode：

import codecs

with codecs.open('/Users/michael/gbk.txt', 'r', 'gbk') as f:

    f.read() # u'u6d4bu8bd5'

参考:

http://www.crifan.com/summary_python_string_encoding_decoding_difference_and_comparation_python_2_x_str_unicode_vs_python_3_x_bytes_str/

#coding=utf-8
"""

"""
#'ascii' codec can't encode characters in position 8-50: ordinal not in range(128)
'''
Python在安装时，默认的编码是ascii，当程序中出现非ascii编码时，python的处理常常会报这样的错UnicodeDecodeError: 'ascii' codec can't decode byte 0x?? in position 1: ordinal not in range(128)，python没办法处理非ascii编码的，此时需要自己设置将python的默认编码，一般设置为utf8的编码格式。
查询系统默认编码可以在解释器中输入以下命令：
Python代码
>>>sys.getdefaultencoding()
设置默认编码时使用：
Python代码
>>>sys.setdefaultencoding('utf8')
可能会报AttributeError: 'module' object has no attribute 'setdefaultencoding'的错误，执行reload(sys)，在执行以上命令就可以顺利通过。
'''

#python代码文件的编码
"""
py文件默认是ASCII编码，中文在显示时会做一个ASCII到系统默认编码的转换，这时就会出错：SyntaxError: Non-ASCII character。需要在代码文件的第一行或第二行添加编码指示：
# coding=utf-8 ##以utf-8编码储存中文字符
print ‘中文’像上面那样直接输入的字符串是按照代码文件的编码来处理的，如果用unicode编码，有以下2种方式：
s1 = u’中文’ #u表示用unicode编码方式储存信息
s2 = unicode(‘中文’,’gbk’)
unicode是一个内置函数，第二个参数指示源字符串的编码格式。
decode解码是任何字符串具有的方法，将字符串转换成unicode格式，参数指示源字符串的编码格式。
encode转码也是任何字符串具有的方法，将字符串转换成参数指定的格式。

python字符串的编码
用 u’汉字’ 构造出来的是unicode类型，不用的话构造出来是str类型
str的编码是与系统环境相关的，一般就是sys.getfilesystemencoding()得到的值
所以从unicode转str，要用encode方法
从str转unicode，所以要用decode
例如：
# coding=utf-8   #默认编码格式为utf-8
s = u'中文' #unicode编码的文字
print s.encode('utf-8')   #转换成utf-8格式输出
print s #效果与上面相同，似乎默认直接转换为指定编码

我的总结：
u=u'unicode编码文字'
g=u.encode('gbk') #转换为gbk格式
print g #此时为乱码，因为当前环境为utf-8,gbk编码文字为乱码
str=g.decode('gbk').encode('utf-8')   #以gbk编码格式读取g（因为他就是gbk编码的）并转换为utf-8格式输出
print str #正常显示中文

安全的方法：
s.decode('gbk','ignore').encode('utf-8′) #以gbk编码读取（当然是读取gbk编码格式的文字了）并忽略错误的编码，转换成utf-8编码输出
因为decode的函数原型是decode([encoding], [errors='strict'])，可以用第二个参数控制错误处理的策略，默认的参数就是strict，代表遇到非法字符时抛出异常；

如果设置为ignore，则会忽略非法字符；
如果设置为replace，则会用?取代非法字符；
如果设置为xmlcharrefreplace，则使用XML的字符引用
"""

'''
测试说明，对于文本文件需要使用gbk解码，而对于脚本文件需要utf8解码，也就是说，文本文件是gbk编码的，而脚本则是utf8
chardet模块可以检测文件编码
with open(filename) as f:
    text=f.read()
    print chardet.detect(text)
'''

'''
#coding:utf-8和setdefaultencoding区别
1.如果你在python中进行编码和解码的时候，不指定编码方式，那么python就会使用defaultencoding。而python2.x的的defaultencoding是ascii,这也就是大多数python编码报错：“UnicodeDecodeError: 'ascii' codec can't decode byte ......”的原因。
2.关于头部的# coding：utf-8,有以下几个作用
2.1如果代码中有中文注释，就需要此声明
2.2比较高级的编辑器（比如我的emacs），会根据头部声明，将此作为代码文件的格式。
2.3程序会通过头部声明，解码初始化 u"人生苦短"，这样的unicode对象，（所以头部声明和代码的存储格式要一致）
'''