概率图论模型（probabilistic graphical model）的由来—

概率图论模型（probabilistic graphical model）的由来—— 它的本质是什么

读者前置要求：概率论。

在这一片文章中，我要讲的主要有两个核心问题：

（1）概率分布的表示方法。最基本的方法（naive）和利用了变量间独立关系的方法之前的差别是什么。

（2）为什么我们会引入概率图论模型，它的涵义是什么。

一、Parameterization of Distribution

我们大家都知道要充分描述一个概率分布只要列举出（假设的设计的随机变量是离散的）每一种事件发生的概率就行了。然而，其实还有另外的表示方法。这一部分的内容是在讲我们为什么要寻找另外的表示方法。

怎么表达 distribution

1、一个navie distribution是列出每种可能出现的结果，并给出他们的概率

2、如果存在独行性的化，我们可以另外的表示法。考虑N个不同硬币（biased）的投掷结果。

要表示这种概率分布，需要的参数仅仅是n.而之前，采用navie的方法，也就是我们对这个N个变量间的关系一无所知，则要表示好这个必须有2^N - 1 这么多的参数。

这里的其实在讲的是这么一件事情。

一个distribution其实一个函数。要定义出这个distribution有两种方法。

1、列举法。如果我们对其中变量间的关系毫无所知的时候，我们没有办法只能采用种办法。那么为了表达这样一组数值关系，我们要用的的独立参数(independent parameter)的个数是2^n -1.

2、其他的表示法。如果我们知道，变量间的独立关系。如果投硬币都是互相独立的。那么为了表达出这个函数/概率分布，我们所需要的独立参数仅仅是N。

可以预见的得到，参数更少了，在learning的时候 "学习空间"就小了很多。如果我们想从数据从学习这种distribution，参数多的话所需要的数据就多。因为我们知道机器学习的本质其实就是从一些可能的函数组，函数空间中，找到最好的那个。（这个最好的定义可以很丰富cost function之类的）。再往深处想，为什么我们可以讲"学习空间"从原来的2^n 讲到 n, 是因为我们知道了一条很有用的信息："变量间的关系"，根据信息论的原理，很显然，这条信息有助于将我们的原来的模型不确定性减少很多。具体倒数学公式上就是它已经讲那个原本未知的distribution函数表达成了乘积的形式，我们从原本未知，到知道了函数的结构，这是一个很大的进步。

通过这个例子的学习。我们大概就猜到了representation 这一章应该会在只根据变量间的 independence properies, 来给出compact（所需要independent parameter少）的表示。因为compac的表示易于处理和learning。

核心主题: How independece properties can be used to the represent the high-dimension distribution much more compactly.