数据挖掘容易被忽略的概念——状态的可观察和可感知性

如果有两类随机变量X和Y,由某个联合分布中可以采样(X,Y)。根据采样可以估算互信息H(Y|X),相信很多人都会。但是,这样的户信息是否有意义呢?现在来看,至少存在两个问题:1. 计算户信息需要得到联合分布或条件分布,而用样本来估计分布会有天然的误差;2. X或Y可能不是合适的状态的定义。第1条比较简单,已经有若干方法可以解决,如加入先验Beta分布。

第2条是什么意思呢?比如某个用户u访问了一个页面p,我们可以用这个页面的ID来代表这个页面,用用户的cookie来代表用户,进而计算互信息(不限于互信息,还可以是其它反映u和p之间的correlation的量)。在这种情况下,我们可以通过U和P的互信息来表示二者联系的强弱。

这里面的问题是,U和P使用的用于表示状态的变量不合适。比如U里面,可能有两个不同的u,实际上是相同的用户;P里面也有类似的情况。这是一种容易被理解的表达,实际上,可以更深一步考虑,这里的U和P之所以状态表示不合适,是因为U和P不同表示的实际差异是不可观察或不可感知的(为了避免绝对的不可观察和不可感知的情况,实际上是观察差异和表示差异不相同)。如果使用熵的概念来定义,就是$H(U)<H(U'), H(P)<H(P')$,其中$U', P'$表示实际的具有可以被感知的差异状态表示。因此H(P|U)的估计也就很不准确了。

对信息的压缩表示,如Sparse Coding/聚类,是解决这个问题的方法。工程上叫做“粒度”。

原文地址:https://www.cnblogs.com/bqzhao/p/3419332.html