机器学习回归算法

回归问题:主要用于预测数值型数据,典型的回归例子:数据拟合曲线,回归算法中算法的最终结果是一个连续的数据值,输入值是一个d维度的属性/数值向量

一.线性回归

　　线性回归的定义:

　　线性回归需要一个线性模型,属于监督学习,因此方法和监督学习应该是一样的,先给定一个训练集,根据这个训练集学习出一个线性函数,然后测试这个函数是否足够拟合训练集数据,然后挑选出最好的函数.

　　最终要求是计算出θ的值,并选择最优的θ值构成算法公式

　　怎么样能够看出线性函数拟合的好不好呢?

　　答案是我们需要使用到Cost Function（代价函数），代价函数越小，说明我们线性回归的越好，和训练数据拟合的越好。

　　线性回归、最大似然估计及二乘法

　　似然函数:在英语语境里，likelihood 和 probability 的日常使用是可以互换的，都表示对机会 (chance) 的同义替代。但在数学中，probability 这一指代是有严格的定义的，即符合柯尔莫果洛夫公理 (Kolmogorov axioms) 的一种数学对象（换句话说，不是所有的可以用0到1之间的数所表示的对象都能称为概率）。而 likelihood (function) 这一概念是由Fisher提出，他采用这个词，也是为了凸显他所要表述的数学对象既和 probability 有千丝万缕的联系，但又不完全一样的这一感觉。中文把它们一个翻译为概率（probability），一个翻译为似然（likelihood）也是独具匠心。

　　似然函数的定义： L(θ|x) = f(x|θ)

　　上式中，小x指的是联合样本随机变量X取到的值，即X= x；这里的θ是指未知参数，它属于参数空间；而是一个密度函数，特别地，它表示(给定)θ下关于联合样本值x的联合密度函数。从定义上，似然函数和密度函数是完全不同的两个数学对象：前者是关于θ的函数，后者是关于x的函数。所以这里的等号= 理解为函数值形式的相等，而不是两个函数本身是同一函数（根据函数相等的定义，函数相等当且仅当定义域相等并且对应关系相等）。

　　两者的联系：

　　如果X是离散随机变量，那么其概率密度函数 $f(\textbf{x}|\theta)$ 可改写为：

　　 $f(\textbf{x} | \theta) = \mathbb{P}_\theta(\textbf{X} = \textbf{x})$

　　即代表了在参数为θ下，随机变量X取到x的可能性。并且，如果我们发现：

　　 $L(\theta_1 | \textbf{x} ) = \mathbb{P}_{\theta_1}(\textbf{X} = \textbf{x}) > \mathbb{P}_{\theta_2}(\textbf{X} = \textbf{x}) = L(\theta_2 | \textbf{x})$

　　那么似然函数就反应出这样一个朴素推测：在参数 $\theta_1$ 下随机向量X取到值x的可能性大于在参数 $\theta_2$ 下随机向量X取到值x的可能性。换句话说，我们更有理由相信相对于 $\theta_2$ 来说 $\theta_1$ 更有可能是真实值。这里的可能性是由概率来刻画。

　　综上，概率(密度)表达给定 $\theta$ 下样本随机向量X = x的可能性，而似然表达了给定样本X = x下参数 $\theta_1$ (相对于另外的参数 $\theta_2$ )为真实值的可能性。　

　　最大似然估计：

　　在已知试验结果（即是样本）的情况下，用来估计满足这些样本分布的参数，把可能性最大的那个参数 $\theta$ 作为真实的参数估计。最大似然估计，最大似然估计是建立在这样的思想上：已知某个参数能使这个样本出现的概率最大，我们当然不会再去选择其他小概率的样本，所以干脆就把这个参数作为估计的真实值。

　　求最大似然函数估计值的一般步骤：
　　（1）写出似然函数
　　（2）对似然函数取对数，并整理
　　（3）求导数
　　（4）解似然方程

　　最小二乘法（Least Square ）的解析解可以用 Gaussian 分布以及最大似然估计求得

　　首先假设线性回归模型具有如下形式：

　　 $f(\mathbf x) = \sum_{j=1}^{d} x_j w_j + \epsilon = \mathbf x \mathbf w^\intercal + \epsilon$

　　其中： $\mathbf x \in \mathbb R^{1 \times d}$ ， $\mathbf w \in \mathbb R^{1 \times d}$ ，误差 $\epsilon \in \mathbb R$

　　已知：

　　 $\mathbf X=(\mathbf x_1 \cdots \mathbf x_n)^\intercal \in \mathbb R^{n \times d}$ ， $\mathbf y \in \mathbb R^{n \times 1}$

　　如何求参数W呢？

　　如果用最小二乘法的话，有误差函数：

　　 $\text{arg\,min}_{\mathbf w} f(\mathbf w) = \sum_{i=1}^n(\mathbf y_i - \mathbf x_i \mathbf w^\intercal)^2= {\left\lVert{\mathbf y - \mathbf X \mathbf w^\intercal}\right\rVert}_2^2$

　　我们对W求偏导，然后令个偏导 = 0，联立解方程——这就是最小二乘法求W的过程。

　　如果用最大似然函数求解的话：

　　假设误差服从高斯正态分布：

　　 $\epsilon_i \sim \mathcal{N}(0, \sigma^2)$

　　也就是说：

　　 $\mathbf y_i \sim \mathcal{N}(\mathbf x_i \mathbf w^\intercal, \sigma^2)$

　　则最大似然估计推导：

　　 $\begin{align*} \text{arg\,max}_{\mathbf w} L(\mathbf w) & = \ln {\prod_{i=1}^n \frac{1}{\sigma \sqrt{2\pi}} \exp(-\frac{1}{2}(\frac{\mathbf y_i - \mathbf x_i \mathbf w^\intercal}{\sigma})^2})\\ & = - \frac{1}{2\sigma^2} \sum_{i=1}^n(\mathbf y_i - \mathbf x_i \mathbf w^\intercal)^2 - n \ln \sigma \sqrt{2\pi} \end{align*}$

　　对上式求偏导然后令个偏导 = 0，联立解方程。

　　总结：两者的结果是一样的。

机器学习 回归算法

机器学习回归算法