python数据处理(七)之数据探索和分析

1.探索数据

1.1 安装agate库

1.2 导入数据

1.3 探索表函数

a.排序

b.最值,均值

c.清除缺失值

d.过滤

e.百分比

1.4 连结多个数据集

a.捕捉异常

b.去重

c.缺失数据的处理

d.联结数据集

1.5 识别相关性

利用numpy分析

1.6 找出离群值

a.使用标准差

b.使用绝对中位差

(数据分布以及数据分布所展现的趋势)

1.7 数据分组

研究数据分组之间的关系(创建分组,聚合这些分组,确定分组之间的联系)

2 分析数据

2.1 分析数据与探索数据的区别

分析数据:提出问题并尝试使用已经有的数据回答这些问题。可以对数据集进行组合和分组,以构建一个统计可用的样本

数据探索:研究数据集的一些趋势和属性,不尝试去回答特定的问题或得出确定的结论

2.2 分离与聚焦数据

分离无用数据,聚焦有用数据

2.3 寻找趋势与模式

a.寻找趋势与模式

b.发现联系,深入的挖掘

2.4 描述结论

确定用什么方式分享这些结论

为了得到更全面的结论,需要更多的文档,研究,这本身就是一个很重要的信息

2.5 将结论写成文档

将工作成果写成文档

原文地址:https://www.cnblogs.com/qiu-hua/p/12623463.html