1.探索数据
1.1 安装agate库
1.2 导入数据
1.3 探索表函数
a.排序
b.最值,均值
c.清除缺失值
d.过滤
e.百分比
1.4 连结多个数据集
a.捕捉异常
b.去重
c.缺失数据的处理
d.联结数据集
1.5 识别相关性
利用numpy分析
1.6 找出离群值
a.使用标准差
b.使用绝对中位差
(数据分布以及数据分布所展现的趋势)
1.7 数据分组
研究数据分组之间的关系(创建分组,聚合这些分组,确定分组之间的联系)
2 分析数据
2.1 分析数据与探索数据的区别
分析数据:提出问题并尝试使用已经有的数据回答这些问题。可以对数据集进行组合和分组,以构建一个统计可用的样本
数据探索:研究数据集的一些趋势和属性,不尝试去回答特定的问题或得出确定的结论
2.2 分离与聚焦数据
分离无用数据,聚焦有用数据
2.3 寻找趋势与模式
a.寻找趋势与模式
b.发现联系,深入的挖掘
2.4 描述结论
确定用什么方式分享这些结论
为了得到更全面的结论,需要更多的文档,研究,这本身就是一个很重要的信息
2.5 将结论写成文档
将工作成果写成文档