python中烦人的锟斤拷（xefxbfxbd）

首先要知道xefxbfxbd是啥东西

>>> u'uFFFD'.encode('utf-8')
'xefxbfxbd'

由此我们可以知道xefxbfxbd是utf8编码的'uFFFD'，那么这个'uFFFD'是啥东西呢？

原来是因为Unicode和老编码体系的转化过程中，肯定有一些字，用Unicode是没法表示的，Unicode官方用了一个占位符来表示这些文字，这就是：U+FFFD REPLACEMENT CHARACTER。

>>> "xefxbfxbd".decode("utf-8")
u'ufffd'

所以，如果你的文本中有一些字符是unicode表示不了的，在python程序读入的时候就会转成xefxbfxbd，如果在某些地方变成了unicode，那么内部就会变成

u'ufffd'，然而你再也不能转为str了。

如果你碰巧用到这些字符串作为字典的key，那么就会报key_error的错误了。