python数据处理(四)之数据获取与存储

1.前烟

几个数据问题

1.1 是否能够联系上作者本人

1.2 数据是否定期检查错误并更新

1.3 数据是否包含数据获取方法的信息,是否包含数据获取过程中使用的样本类型

1.4 有没有其他数据源可以验证这个数据集

1.5 根据我对这个话题了解的所有只是,数据是否可信

三个回答是yes的话,数据可靠,否则要重新考虑数据

2 真实性核查

内容:

2.1 联系数据源、核查最新的方法和版本

2.2 找到其他好的数据源作对照

2.3 联系专家,探讨好的数据源和真实的信息

2.4 进一步研究你的主题,检查你的数据源或数据集是否可信

3 数据可读性、数据清洁度和数据寿命

3.1 数据的清洁度有多高

3.2 是否有人给出了用统计误差率,或者修改了错误的数据条目,或者误报了数据

3.3 是否会发布进一步跟新,这些更新是否会发送给你?

3.4 数据采集过程中使用了哪些,如何验证这些方法

4 寻找数据

4.1 打电话

4.2 美国政府数据

4.3 全球政府和城市开放数据

4.4 组织数据和非政府组织数据

4.5 教育数据和大学数据

4.6 医学数据和科学数据

4.7 众包数据和API

5 案例研究:数据调查实例

6 数据存储

6.1 数据库:关系数据库MySql,非关系数据库Nosql,python创建本地数据库,云存储,本地存储和python

原文地址:https://www.cnblogs.com/qiu-hua/p/12615795.html