第八章采样

所谓的采样就是从特定的概率分布中抽取相应样本点的过程。

这一章涉及的数学知识偏多，比较枯燥，个人只对最后一节《07 不均衡样本集的重采样》重点看了下

1 采样的作用

采样本质上是对随机现象的模拟，根据给定的概率分布，来模拟产生一个对应的随机事件。

2 均匀分布随机数

Q1：如何编程实现均匀分布随机数生成器？

A1：一般可采用线性同余法来生成离散均匀分布伪随机数，计算公式为

　　Xt+1 ≡ a · Xt + c (mod m)

3 常见的采样方法

从某种意义上说，采样时概率密度函数的逆向应用。

Q1：抛开那些针对特定分布而精心设计的采样方法，说一些你所知道的通用采样方法或采样策略，简单描述它们的主要思想以及具体操作步骤。

A1：几乎所有的采样方法都是以均匀分布随机数作为基本操作。均匀分布随机数一般用线性同余法来产生。。。。P176-179

4 高斯分布的采样

5 马尔可夫蒙特卡洛采样法

Q1：简述MCMC采样法的主要思想。

A1：从名字看，MCMC采样法主要包括两个MC，即蒙特卡洛法和马尔科夫链。蒙特卡洛是指基于采样的数值型近似求解方法，而马尔科夫链则用于进行采样。MCMC采样法基本思想是：针对待采样的目标分布，构造一个马尔科夫链，使得该马尔科夫链的平稳分布就是目标分布；然后，从任何一个初始状态出发，沿着马尔科夫链进行状态转移，最终得到的状态转移序列会收敛到目标分布，由此可以得到目标分布的一系列样本。

Q2：简单介绍几种常见的MCMC采样法。

A2：Metropolis-Hastings采样法、吉布斯采样法 P186-187

Q3：MCMC采样法如何得到相互独立的样本？

A3：与一般的蒙特卡洛算法的不同，MCMC采样法得到的样本序列中相邻的样本不是独立的，因为后一个样本呢是由前一个样本根据特定的转移概率得到的，或者有一定概率就是前一个样本。如果仅仅是采样，并不需要样本之间相互独立。如果需要产生独立同分布的样本，可以同时运行多条马尔科夫链，这样不同链上的样本是独立的；或者在同一条隐马尔可夫链上每隔若干个样本呢才选取一个，这样选取出来的样本也是近似独立的。

6 贝叶斯网络的采样

7 不均衡样本集的重采样

Q1：对于二分类问题，当训练集中正负样本非常不均衡时，如何处理数据以更好地训练分类模型？

A1：为什么很多分类模型在训练数据不均衡时会出现问题？本质原因是模型在训练时优化的目标函数和人们在测试时使用的评价标准不一致。这种“不一致”可能是由于训练数据的样本分布与测试时期望的样本分布不一致。

基于数据的方法、基于算法的方法两种方法详见P195-196

第八章 采样

第八章采样