常用数据存储的介绍和使用

本文内容介绍python和如下数据存储交互的基本使用：

　　文件存储：TXT、JSON、CSV

　　关系型数据库：Mysql（pymysql模块）

　　非关系型数据库：MongoDB（pymongo模块）、Redis（redis模块）

1. 文本存储；简单实例，爬取知乎话题、答者和回答内容保存到txt文件中

## 文本存储；简单实例，爬取知乎话题、答者和回答内容保存到txt文件中
from pyquery import PyQuery as pq
import requests

url = 'https://www.zhihu.com/explore'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36'
}
html = requests.get(url=url, headers=headers).text

doc = pq(html)
items = doc.find('.ExploreCollectionCard-contentItem').items()
for item in items:
    question = item('.ExploreCollectionCard-contentTitle').text()
    author = item('.ExploreCollectionCard-contentExcerpt').text().split('：')[0]
    answer = ''.join(item('.ExploreCollectionCard-contentExcerpt').text().split('：')[1:])
    with open('zhihu_explore.txt', 'a', encoding='utf-8') as f:
        f.write('
'.join([question, author, answer]))
        f.write('
' + '=' * 50 + '
')

'''
保存文本内容：
一年时间可以熟背新概念3.4册课文吗?
lu luce
可以的。。我成功完成了。方法是王江涛六步法。。请看我这个英语学习方法人肉实验员的人肉实验结果。人肉实验者飘过。。。我检查了我的学习日志。一年左右时间背完新概念1234四册的飘过。从2016年12月开始，背到2018年三月份。从2016年12月开始，到2017年4…
==================================================
有没有什么可以放昵称的超级好看的符号？
雨停花落故人散
超级可爱呀⁰¹²³⁴⁵⁶⁷⁸⁹ ¹⁹⁹⁴ ²⁰⁰⁷ ¹⁹⁹⁵ ²⁰⁰⁸ ¹⁹⁹⁶ ²⁰⁰⁹ ¹⁹⁹⁷ ²⁰¹⁰ ¹⁹⁹⁸ ²⁰¹¹ ¹⁹⁹⁹ …
==================================================
有哪些推翻了人们对历史的认识的考古发现？
清源文化遗产
2002年，在青海喇家遗址，考古队员们意外发现了4000年前扣翻在地上的一碗面条凑近看这只倒扣的齐家文化篮纹红陶碗，碗内的残留物中保留着清晰可见的团状细条卷曲痕迹的黄色物质，风化很严重，只残留表皮一点薄薄的物质经科学鉴定，发现其中的主要成分和粟、…
==================================================
白酒真的好喝么？
许公子
送你一份酒水清单，全部喝一遍再来问好不好喝。 两年前，我滴酒不沾，喝白酒只有一个味辣。 初尝白酒是抖音里那杯“情人的眼泪”。 谈不上好喝，也说不上难喝，主要是内心那点文艺作祟；随着工作压力的增大以及工作需要，喝酒、品酒变成了日常，才发现酒…
==================================================
传统方法BM25解决短文本相似度问题
刘聪NLP
之前介绍过TF-IDF计算短文本相似度，见刘聪NLP传统方法TF-IDF解决短文本相似度问题，想着就把这一系列都介绍完吧，也算是自己的归纳总结，今天就介绍一下如何使用BM25算法计算短文本相似度。上一篇短文本相似度算法研究文章中，我们举过这样一个场景，在…
==================================================
香侬读 | ReZero: 使用加权残差连接加速深度模型收敛
香侬科技
论文标题ReZero is All You Need: Fast Convergence at Large Depth论文作者Thomas Bachlechner, Bodhisattwa Prasad Majumder, Huanru Henry Mao, Garrison W. Cottrell, Julian McAuley 论文链接https://arxiv.org/abs/2003.04887代码连接https://github.com/majumderb/rezero…
==================================================
100个素材网站，这辈子都用不完
知乎用户
好久没给大家分享资源了，是不是最近也是非常饥渴。好东西就要分享才对，所以以下资源就当是福利啦！ 谷歌扁平化设计手册
https://material.google.com/
国内学习网站
http://www.wanyouyingli.com/
常见函数图表
http://easings.net/zh-cn
国内畅游视觉设计中心
…
==================================================
你都见过什么奇奇怪怪的网站？
林简明
我的收藏夹小金库又要大出血了！（宝藏男孩出击！末尾有彩蛋~1、马克思主义文库我们以前总开玩笑说“马特好难，考的都是什么玩意”。但你不知道有一群默默无闻的群体，他们不求回报，一心为了这份事业耕耘着。网站收集来自全世界过去、现在以及未来为共产…
==================================================
'''

输出文件内容

2. JSON文件存储

## JSON文件存储
## JSON中两种常用的类型：对象和数组，可以理解为python中的字典和列表，两者可以互相嵌套
## 读取JSON，JSON字符串的数据一定要用双引号表示，否则会解析失败
import json

str = '''
[
{"name":"dmr", "age":"25", "score":"80"},
{"name":"asx", "age":"23", "score":"81"}
]
'''
print(type(str))
str = json.loads(str)
print(type(str))
# 读取value，通过字典的get方法，当key不存在时，不会报错，会返回None
print(str[0]['name'])
print(str[0].get('age'))

'''
输出内容：
<class 'str'>
<class 'list'>
dmr
25
'''


## 写入JSON，字典转换成JSON字符串格式，json会自动识别格式并修正转换，如单引号改为双引号
import json

d = {
    'name': ['dmr', 'asx', '逗比'],
    'age': '25',
}
# 把特定格式数据转换成JSON格式
data_json = json.dumps(d)
# indent，指定缩进字符量
data_json2 = json.dumps(d, indent=2)
# ensure_ascii使内容可以以中文显示
data_json3 = json.dumps(d, indent=2, ensure_ascii=False)
print(data_json)
print(data_json2)
print(data_json3)
# 保存JSON内容到文件中
with open('data.json', 'w', encoding='utf-8') as f:
    f.write('
'.join([data_json, data_json2, data_json3]))

'''
输出内容：
{"name": ["dmr", "asx", "u9017u6bd4"], "age": "25"}
{
  "name": [
    "dmr",
    "asx",
    "u9017u6bd4"
  ],
  "age": "25"
}
{
  "name": [
    "dmr",
    "asx",
    "逗比"
  ],
  "age": "25"
}
'''

3. CSV文件，以纯文本形式存储表格数据

## CSV文件，以纯文本形式存储表格数据
## 写入
import csv

with open('data.csv', 'w') as csvf:
    # 获得文件句柄
    writer = csv.writer(csvf)
    # 获得文件句柄并指定分隔符
    writer2 = csv.writer(csvf, delimiter=' ')
    # 写入行内容
    writer.writerow(['id', 'name', 'age'])
    writer.writerow(['0001', 'dmr', '25'])
    writer.writerow(['0002', 'asx', '23'])
    writer.writerow(['0003', 'scy', '26'])
    writer2.writerow(['0004', 'test', '22'])
    writer2.writerow('=================================')
    # 写入多行
    writer2.writerows([['id', 'name', 'age'], ['0001', 'dmr', '25'], ['0003', 'scy', '26']])
    writer2.writerow('=================================')

    # 通过字典形式进行文件添加内容
    fieldnames = ['id', 'name', 'age']
    writer3 = csv.DictWriter(csvf, fieldnames=fieldnames)
    # 生成fieldnames的首行
    writer3.writeheader()
    # 写入内容
    writer3.writerow({'id': '0001', 'name': 'dmr', 'age': '25'})
    writer3.writerow({'id': '0002', 'name': 'asx', 'age': '23'})
    writer3.writerow({'id': '0003', 'name': 'scy', 'age': '26'})



## 读取
import csv

with open('data.csv', 'r', encoding='utf-8') as csvf:
    reader = csv.reader(csvf)
    print(reader)
    for row in reader:
        print(row)


# 用pandas模块进行文件读取
import pandas as pd

data = pd.read_csv('data.csv')
print(data)

4. 关系型数据库mysql

　　pymysql模块：https://www.cnblogs.com/Caiyundo/p/9578925.html

5. 非关系型数据库mongodb、redis

　　pymongo模块：https://www.cnblogs.com/Caiyundo/p/9480265.html

　　redis模块：https://www.cnblogs.com/Caiyundo/p/9561548.html