可视化学习笔记7：诚实设计

请勿歪曲数据

你有责任确保以最真实的方式展示数据。人们的确会在可视化图表中撒谎，欺骗他人。最常见的方法是以各种方式歪曲条形图。

下面是福克斯新闻在 2012 年展示的一个图表示例（他们总是犯这种错误）。

如何通过条形图撒谎。

上图想要显示变化的税率。看起来像很大的变化（5 倍增长）。但是，如果再去看实际数字，就会发现仅从 35% 增长到了 39.6%，只有 13% 的增长（ (百分之 4.6 的增长点）。人们容易认为条形图的基线是 0，但是此图的基线为 34%，超出了我们的设想范围。此图的创建者可能想故意欺骗观看者，使他们认为税率出现了很大的变化，实际上并非如此。

如果要重新创建该图表，准确地显示各个值，那么变化几乎可以忽略。

畸变因子

这就要提到 Edward Tufte 在《Visual Display》中提出的一个概念，即畸变因子。没错，又是他，强烈建议你阅读这本图书。畸变因子会将图表的效果大小与数据的效果大小进行对比。效果是指要对比的差异。例如，在税率图表中对比的是直条的高度，所以效果是右侧直条比左侧直条高多少。

要计算畸变因子，需要将图表的效果大小与数据的效果大小相除。我将使用下图（也是很好的图表垃圾反面示例）作为示例进行讲解。

来自 Tufte 的《Visual Display of Quantitative Information》（《洛杉矶时报》，1979 年 8 月 5 日）中的示例）

实际上不好确定医生图片的哪个方面表示数据。高度？面积？实际上，医生高度与百分比成比例，但是我们实际上将视觉面积看做数据编码。因为我们对比的是医生图片的面积，我将使用这一面积来计算图形效果。在最大的医生图片周围画个长方形，高 437 像素，宽 181 像素，所以面积约为 79000 平方像素。中间的医生图片面积约为 30500 平方像素，小的医生图片的面积约为 16500 平方像素。

我们算算 1964 和 1990 之间的对比畸变因子。视觉效果是 1964 年的医生大了多少。即 (79000 - 16500)/16500 = 3.79，所以医生大小之间的差别是小医生图片大小的 379%。实际数据的效果是 (27-12)/12 = 1.25，或者数据差别是比 1990 年数据点大 125%。除以这些值，畸变因子是 3.79/1.25 = 3.03。

练习题

上面的福克斯新闻条形图的畸变因子是多少？以下是一些实用数据：小的直条高 27 像素，大的直条高 146 像素。

4.57
33.54
0.030
1

折线图和不规则的区间

条形图并非是唯一可以被歪曲的常见图表。经常你将看到折线图以不规则区间连接线条。例如，下图跳过了 1999 年和 2002 年，但是图形元素按照正常区间放置，歪曲了数据。

具有不规则区间的折线图（Mike Alexander， Excel 2007 Dashboard and Reports for Dummies）

折线图显示了数据点之间的变化速率。如果区间像上图一样不规则，变化就过于强调了。

1998 年和 2000 年之间的变化似乎很大，但是如果在二者之间填上 1999 年的数据，并适当增加空间，增加幅度就可能和其他年份一样了。2001 年和 2003 年之间的变化比其他区间的要小，但是实际上是两年间隔，而不是一年，随着时间推移的变化幅度比实际的看起来要大。

这篇文章（作者：Stephen Few）很好地解释了如何使用具有不规则区间的折线图。