辛普森悖论

一、简述

在某个条件下的两组数据,分别讨论时都会满足某种性质,可是一旦合并考虑,却可能导致相反的结论。

当人们尝试探究两种变量是否具有相关性的时候,比如新生录取率与性别,报酬与性别等,会分别对之进行分组研究。辛普森悖论是在这种研究中,在某些前提下有时会产生的一种现象。即在分组比较中都占优势的一方,会在总评中反而是失势的一方。

 

二、经典案例

一所美国高校的两个学院,分别是:法学院和商学院,新学期招生数据如下:

  全校男生 全校女生
录取 209 143
未录取 95 110
录取率 68.8% 56.5

人们怀疑这两个学院有性别歧视。

现作如下统计:

  法学院男生 法学院女生 商学院男生 商学院女生
录取 8 51 201 92
未录取 45 101 50 9
录取率 15.1% 33.6% 80.1% 91.1%

我们可以看到,法学院男生的录取比例为8/53=15.1%,女生录取的比例为51/152=33.6%。同理,商学院男生的录取比例为80.1%,女生的录取比例为91.1%

无论在法学院还是在商学院,女生的录取比例都高于男生。

我们再来看一个实际工作中会遇到的案例:

某产品的用户中有10000人使用Android设备、5000人使用IOS设备,整体的付费转化率应该是5%。细分发现其中IOS设备的转化率仅为4%,而Android设备则是5.5%。

假设相同的货币化(也就是Android用户和iOS用户在游戏中花的钱一样多),资源有限的情况下可能根据这些数据会做出一些极端的决定,也许会优先考虑安卓功能的开发,甚至干脆取消iOS项目。

   安卓手机  IOS手机 安卓平板   IOS平板
 转化  50  100 500   100
 未转化 1950   3400  7500  1400
转化率 2.50% 2.86% 6.25% 6.67%

然而当数据按照设备再次细分,用户群的不同的情况如下:

现在发现iOS平板的转换率比Android平板高一点,iOS手机的转换率同样比Android手机高。如果看到了这一点,可能会对未来的产品做一系列不同的决策。

iOS能在设备转化方面打败Android,但是在整体水平上却输给Android的原因是,每个平台的设备类型不同:平板的转化率比手机的转化率高,在这个用户群中,iOS平板占iOS设备的比例(30%)低于Android平板所占的比例(80%),尽管Android平板上的转化率比IOS低。 把数据混合到一起就变成一个很大的问题,去比较两组与完全不同的属性的东西 

三、原因与应对策略

 误区产生的原因说起来也很简单,就在于将“值与量”两个维度的数据,归纳成了“值”一个维度的数据,并进行了合并。

辛普森悖论的数学内核:

当然把c=a,e=g(更为特殊的情况),上述关系依然适用。

如果要避免“辛普森悖论”给我们带来的误区,就需要斟酌个别分组的权重,以一定的系数去消除以分组资料基数差异所造成的影响。

为了避免这种情况,用于优先功能开发的基本维度(“过滤器”,或用户特性),应该在用户分类方面建立粗糙集。对于移动产品,最基础的设置一般包括:

  • 位置(国家)
  • 设备(平台、外形,设备型号)
  • 采集源;
  • 早期行为线索( 如盈利/ 参与里程碑);
  • 加入日期(用于控制季节性)
  • 对于一些收购渠道(如Facebook),其他人口统计数据点,如年龄,性别等可能也是重点。

用这些维度进行分析比先前引用的:粗暴的对比IOS和Android总体情况的例子提供了更为可靠的见解。最终分析的目标是为真正使用它的人改善产品。如果这个分析在一个错误的前提下进行,那么用户的真正问题并不会得到解决。

原文地址:https://www.cnblogs.com/zcjcsl/p/9445402.html