数据分析_数据分析概述

数据分析流程

了解业务--了解数据--确认业务和数据--预期分析和管理-数据分析方式

了解业务和数据

01.了解数据

数据
  1.测量标度类型
    属性本源并不是数字或者符号,通过测量标度将数值或者符号和对象的属性建立关联。
     属性的类型--测量尺度
  	 nominal  标称----等于或者不等于--------一对一的变换
  	 ordinal  序数---大于或者小于----------单调函数的变换
  	 interval 区间----加减------------------- 一次函数
  	 ratio	  比率---- 乘除------------------- 比例函数
  	数据的大类:离散数据和连续数据-
  	数据的度量单位:分、元
     举例
  	 温度--华氏温度和摄氏温度
  	 计数属性是离散的也是比率属性
   2.有序数据--属性涉及时间或者空间的联系
		截面数据--在相同或者近似相同的时间点上收集的数据
		时序数据
		  时间序列数据
		序列数据--考虑项的位置
		空间数据		
数据集
	数据集的属性
	  维度
	  稀疏性
	  数据集的平衡性--非平衡数据
	  粒度--分辨率
	  时效性
	  相关性
	  训练集和测试集--为了评估模型的可靠性以及扩展性
	数据集的表示--数据格式
	  数据矩阵
	  购物篮数据
数据背景
	数据分析和判断,其中对数据背景的了解是必不可少的

02.了解数据过程中的常见问题

数据的安全性
	数据的保密:权限以及抵抗力
	数据的恢复:冗余-备份-容灾

	数据的追溯:可追溯
		数据来源--
		数据过程可重复

 数据的可用性
	数据质量问题
	    完整,全面,一致,准确,可解释-可靠性
	    	现象--原因---解决方式
	    	   异常值--缺失值--重复值--不一致值--噪声--遗漏值
	    	数据质量的检测和纠正
	    	数据算法的容忍度
	数据的复用性
	   数据格式--数据是给人看的,同时也是给机器看的--文件格式与编码
	   	通过一定的数据格式--自解释数据格式			例如:JSON,XML等
	   
	   数据架构可用性
	   	架构的可扩展性
	数据的流动
		异构数据源流向统一的目标数据--数据的ETL
		采集误差--转换规则			

数据陷阱
沉默数据缺失
数据的成本和时效
数据过拟合--评估模型的可靠性--分为训练集和测试集

数据造假
	案例-
		孙膑	减灶诱敌
		诸葛亮	增灶退兵

数据分析思路

确认场景 确认数据  是什么?
探索原因,需找因素  为什么
解决思路和方式     怎么办

数据分析技术

技术流派

数据排查流程

从数据结果上
 1、检索结果中的数据格式检验,从开发角度来说是了解数据类型,字段等的准确性
 2、检索结果中的数据量是否符合检索条件,判断数据量的准确性。数据的分布,极值和均值等
 3. 样本数据检测,通过不同的数据进行相互验证,判断数据中数值的正确性,
 4. 历史数据检测,进行数据合理性判断
常规内容
  了解常见的错误类型
  记录特殊的错误类型
  规范的数据操作方式

参考

参考

原文地址:https://www.cnblogs.com/ytwang/p/13859664.html