[CPyUG] 抓取网页数据时遇到的中文编码问题

解释一下
from __future__ import unicode_literals
python2在windows环境中，由于系统内码是gbk，所以当有
# coding:utf-8
的时候，你要输出文字必须：
print u'要输出的文字'
否则就是乱码。这是因为默认字符串实际上是字节串，并非宽字符集。
from __future__ import unicode_literals
这句话的作用就是让默认字符串变成宽字符集，这样你可能会少进行一次转换，
有利于跨平台和实现py2与py3兼容。