笔记:数据之美

数据之美

一、 了解数据

二、 可视化的意义

三、 掌握可视化设计的原材料

1.    可视化组件:

视觉暗示、坐标系、标尺、背景信息

 

2.    整合可视化组件

四、 不了解数据,一切皆是空谈

1.    可视化过程

流程图

2.    分类数据可视化

a)     分类

数据是直接的,每个分类都有一个值。可以使用条形图和符号图,特点对比

图表类型

优势

劣势

条形图

长度作视觉暗示,分类间的差异明显

每个矩形都要从零坐标开始

只能横向或向上径直延伸

符号图

面积做视觉暗示,难以区分细微差别

可以在二维空间以任何方式组织图形

便于展示差异数量级较大的数据

 

b)     整体中的部分

饼图:角度做视觉暗示,总和为100%,不适用于分类较多的情况

堆叠条形图:通常用于显示投票结果,也可用于原始计数

 

c)     子分类

用于有层次的数据

树图:紧凑的空间显示层次结构,通常面积和颜色结合使用

马赛克图:允许在一个视图中进行跨分类比较

 

d)     看清数据的结构和模式

回归到数据:分类数据可以很直观的看到数据集的范围、分布情况、再看结构和模式,如果一些分类有着同样或差异很大的值,要分析原因

3.    时序数据的可视化

a)     周期

条形图:对离散的时间点很有用,关注数值,更容易区分变化

折线图:通过方向这一视觉暗示更注重变化趋势的体现

散点图:重点在数值上,趋势不是那么明显,尤其在数据量小的时候,可以用线连接起来显示趋势(散点图可以使用LOESS拟合曲线)

点线图:相对条形图,更聚焦于端点

径向分布图:与折线图类似,但是围成一圈

日历:对于星期周期模式比其他图看起来更方便

 

b)     循环

存在数据循环重复的情况下,比较每个周期同一天的数据就有意义了。

折线图:可以把日子按循环周期分成段,用多条重叠的折线比较循环情况

星状图:也可使用星状图圆周表示时间循环,多条层叠的折线圈表现循环情况

日历热区图:便于从所有角度观察数据,容易找到数值对应的日期,但颜色作为视觉暗示难以区分较小的数据差异

 

c)     寻找变化的意义

回归到数据:时序数据注重随时间推移发生的变化,比发现变化更重要的是发现变化背后的意义。

注:LOESS曲线法拟合曲线,可用于散点拟合为类似正太分布

4.    空间数据的可视化

a)     位置

位置图:只关心单个位置的数据信息,可以在地图上画点,气泡大小表示数值

联系图:表现不同地点之间的关系

b)     区域

等值区域图:在空间背景信息中可视化区域数据,使用颜色作为视觉暗示,不同区域根据数据填充颜色

等高线图:线条表明地理分布数据的连续性,使用了密度

c)     统计地图

圆形统计图:整个地区依据数据用形状表示大小,而不考虑改地区实际大小,地理学的面积和边界将完全不存在

基于扩散的统计图:保留地理学区域边界,但将边界延长,使区域面积与数据对等

d)     统计图的优缺点

地图:绘制地图(实际区域比例),尤其是等值区域图时,大面积的区域总是得到更多的注意,无论数据量如何

统计图:延长了区域边界,使区域的边界与数值保持一致,但缺点是地理精度不够

 

e)     寻找区域模式

回归到数据:了解数据范围,然后寻找数据的区域模式,结合区域隐含的信息分析数据在不同区域的表现

5.    多元变量

a)     少数变量

两个变量:横纵坐标表示两个变量的散点图,可以体现两变量间的相关性

三个变量:引入新的视觉暗示,面积或颜色,表示第三个变量

四个变量:同时引入面积和颜色,表示不同的变量,但已经不易理解

b)     许多变量

热区图:表格布局,所有行表示同一变量的不同取值,每列代表各不相同的变量,颜色代表数值

平行坐标图:每个纵坐标代表一个变量,取值最小值在底端,最大值在顶端,根据每个变量的位置从左向右画线。如果所有变量正相关则所有线都是笔直的;如果两个变量负相关则一个变量的顶端与另一个变量的底端相连

星状图:更关注个体多变量取值的情况,可使用一组星状图,每个星状图表示一个个体

c)     多视角的使用

什么是多视角:多元变量的情况也可以在不同维度上绘制很多同类图表,可以从不同的角度查看数据,效果更好。

可参考的多视角方法:

  • 如果已分类的多重变量具有时间性和空间性,数据呈现自然分隔,形成图表矩阵,下图为按航空公司划分的航线数据。

 

  • 散点图矩阵可以代替平行坐标图显示相似关系,两两比较比一次弄清多重变量关系更直观

 

  • 同时使用多种图表表现数据

 

d)     寻找数据间的关系

寻找数据间关系时,可以把所有数据同时可视化,也可以从更简单直观的视角出发。两个变量的关系简单易懂,变量数量增多关系变得复杂。

研究时不要进行假设,记住数据中没有包含的变量可能带来变化

相关性和因果关系:要考虑所有背景信息,然后在指定因果关系

1.    数据的分布

 

中位数:(中间的线)代表中位数

下四分位数:表示有1/4的数值低于该数值

上四分位数:表示有1/4的数值高于该数值。

四分位间距:上四分位数和下四分位数之间的范围被称为四分位间距

边界:上/下限边界分别有下四分位数减去/加上3/2个四分位间距来确定

异常值:如果最大值和最小值都在上下限内,那么绘制边界线只是为了确定范围。否则,所有上下限外的点都会被视为异常值

 

a)     不只是寻找平均数和中位数

 可视化工具探索数据分布时要分析峰值、谷值、数据范围以及数据的分布情况。不只是平均数和中位数。原始数据的诗句分析和概要统计间的变化也更有价值。 

五、     让可视化设计更为清晰

建立视觉层次

增强图表可读性

  • 允许数据点之间进行比较
  • 描述背景信息
  • 留白

高亮显示重点内容

注解可视化表达了什么

  • 解释数据
  • 统计学概念的解释
  • 排版的尝试

从不同角度做一些计算

六、     为读者进行可视化设计

可视化的常见错误

  • 新颖的图表
  • 一切皆能可视化
  • 固守可视化的规则

读者不同,数据展示也不同

  • 自己动手制作可视化图
  • 为某一位特定读者设计可视化图表
  • 为更广泛的读者设计可视化图表

需要注意的事项

  • 数据的背景
  • 对概念进行指导
  • 以数据来叙事
  • 相关性

可视化步骤整合

原文地址:https://www.cnblogs.com/zs-note/p/7444276.html