洗礼灵魂，修炼python（70）--爬虫篇

洗礼灵魂，修炼python（70）--爬虫篇—补充知识：json模块

在前面的某一篇中，说完了pickle，但我相信好多朋友都不懂到底有什么用，那么到了爬虫篇，它就大有用处了，而和pickle很相似的就是JSON模块

JSON

1.简介

1）JSON(JavaScript Object Notation) ，js对象标记，是一种轻量级的数据交换格式。它易于阅读和编写，同时也易于机器解析和生成。它基于JavaScript Programming Language, Standard ECMA-262 3rd Edition - December 1999的一个子集，所以有另一个说法，JSON 语法是 JavaScript 对象表示语法的子集。

JSON采用完全独立于语言的文本格式，但是也使用了类似于C语言家族的习惯（包括C, C++, C#, Java, JavaScript, Perl, Python等），它通用于几乎所有的编程语言以及Web开发

2）JSON建构于两种结构：“名称/值”对的集合（A collection of name/value pairs）（是不是有点类似字典啊？），不同的语言中，它被理解为对象（object），纪录（record），结构（struct），字典（dictionary），哈希表（hash table），有键列表（keyed list），或者关联数组（associative array），所以使得一种数据格式在同样基于这些结构的不同编程语言之间能够实现数据交换

3）JSON 值可以是：

数字（整数或浮点数）
字符串（在双引号中）
逻辑值（true 或 false）
数组（在方括号中）
对象（在花括号中）
null

2.方法/属性

json从Python2.6开始加入了JSON模块，所以它已经是内置模块，不用安装

其实方法/属性并不多对吧？

3.常用方法/属性解析

最常用的就这几个：

dump(obj, fp, skipkeys=False, ensure_ascii=True, check_circular=True, allow_nan=True, cls=None, indent=None, separators=None, encoding='utf-8', default=None, sort_keys=False, **kw)：对文件的序列化

dumps(obj, skipkeys=False, ensure_ascii=True, check_circular=True, allow_nan=True, cls=None, indent=None, separators=None, encoding='utf-8', default=None, sort_keys=False, **kw)：对对象的序列化

load(fp, encoding=None, cls=None, object_hook=None, parse_float=None, parse_int=None, parse_constant=None, object_pairs_hook=None, **kw)：对文件的反序列化

loads(s, encoding=None, cls=None, object_hook=None, parse_float=None, parse_int=None, parse_constant=None, object_pairs_hook=None, **kw)：对对象的反序列化

以上的是官方文档里的，参数太多了对吧，其实基本很少用，你知道pickle的dump/dumps和load/loads怎么用就行了，效果是一样的。

json的序列化和反序列化的过程就是对对象的数据来回转化，这种就叫序列化与反序列化，或者叫编码与解码，相互关系：

序列化（dump/dumps）：（这里只是针对python而言，当然可以序列化和反序列化为其他对象）

反序列化（load/loads）：

例1：使用dumps和loads

#-*- coding:utf-8 -*-
import json
test={'username':'yang','password':'test','from':'中国'}
temp=json.dumps(test)
print(temp)
cont=json.loads(temp)
print(cont)

结果：

python3下：

python2下，因为python2下默认是用ASCII码，所以中文显示不正常，这里就可以用dumps的ensure_ascii参数解决：

但是只是dumps转为字符串时可以正常显示，当loads转为原对象还是这样，因为默认编码ASCII，单个输出是没问题的：

所以一般在不能显示中文时我都直接使用的是python3，这个问题前面也说过了，不再多说

例2：使用dump和load

#-*- coding:utf-8 -*-
import json

f=open('test.txt','w')
test={'username':'yang','password':'test','from':'中国'}
json.dump(test,f)
f.close()

f=open('test.txt','r')
cont=json.load(f)
print(cont)
f.close()

先打开test.txt文件看看：