数据挖掘容易被忽略的概念——状态的可观察和可感知性

如果有两类随机变量X和Y，由某个联合分布中可以采样(X,Y)。根据采样可以估算互信息H(Y|X)，相信很多人都会。但是，这样的户信息是否有意义呢？现在来看，至少存在两个问题：1. 计算户信息需要得到联合分布或条件分布，而用样本来估计分布会有天然的误差；2. X或Y可能不是合适的状态的定义。第1条比较简单，已经有若干方法可以解决，如加入先验Beta分布。

第2条是什么意思呢？比如某个用户u访问了一个页面p，我们可以用这个页面的ID来代表这个页面，用用户的cookie来代表用户，进而计算互信息（不限于互信息，还可以是其它反映u和p之间的correlation的量）。在这种情况下，我们可以通过U和P的互信息来表示二者联系的强弱。

这里面的问题是，U和P使用的用于表示状态的变量不合适。比如U里面，可能有两个不同的u，实际上是相同的用户；P里面也有类似的情况。这是一种容易被理解的表达，实际上，可以更深一步考虑，这里的U和P之所以状态表示不合适，是因为U和P不同表示的实际差异是不可观察或不可感知的（为了避免绝对的不可观察和不可感知的情况，实际上是观察差异和表示差异不相同）。如果使用熵的概念来定义，就是$H(U)<H(U'), H(P)<H(P')$，其中$U', P'$表示实际的具有可以被感知的差异状态表示。因此H(P|U)的估计也就很不准确了。

对信息的压缩表示，如Sparse Coding/聚类，是解决这个问题的方法。工程上叫做“粒度”。