【Python学习】Python网络爬虫

问题描述:

  print (r.text)

  UnicodeEncodeError: 'gbk' codec can't encode character u'\u2002' in position 12724: illegal multibyte sequence

问题原因:

  print出来的话,由于本地系统是Windows中的cmd,默认codepage是CP936,即GBK的编码,所以python解释器需要先将上述的Unicode字符编码为GBK,然后再在cmd中显示出来。

  但是由于print内容中包含一些GBK中无法显示的字符,导致此时提示“’gbk’ codec can’t encode”的错误的。

解决方法:

  print (r.text.encode("GBK", 'ignore'))

原文地址:https://www.cnblogs.com/hanjunjun/p/8158017.html