机器学习笔记（3）多变量线性回归

模型介绍

多变量线性回归类似于单变量线性回归，只是需要考虑的影响特征数目变多，通过对多个变量x_i进行分析，进而预测结果y。类似于单变量线性回归的假设函数，给出多变量线性回归的假设函数：

[h_θ(x)=θ_0+θ_1x_1+θ_2x_2+…+θ_nx_n ]

利用线性代数的知识，可以将系数θ定义为一个向量：

[θ=left[ egin{matrix} θ_0 \ θ_1 \ θ_2 \ vdots \ θ_n end{matrix} ight] ]

变量x定义为：

[x=left[ egin{matrix} x_0 \ x_1 \ x_2 \ vdots \ x_n end{matrix} ight] ]

则假设函数可以写成：

[h_θ=θ^Tx ]

类似于单变量线性回归，我们有n个特征值，我们写出代价函数：

[J(θ)=frac{1}{2m}sum_{i=1}^{m} {(h_θ(x^{(i)})-y^{(i)})^2} ]

[θ_j:=θ_j-αfrac{∂}{∂θ_j}J(θ) ]

[(for (j=0,……n)) ]

解开之后的规律为：

[θ_j:=θ_j-αfrac{1}{m}sum_{i=1}^{m} {(h_θ(x^{(i)})-y^{(i)})x_j^{(i)}} ]

当然对于某些情况，例如对于一个多变量的模型，其各个变量的取值范围差异很大，就会导致在执行梯度下降的过程中，速度缓慢且可能产生波动。所以引出一个技巧：

对于上述的情况，希望能将各变量的取值范围保持在(-1leq xleq 1)类似的一个范围里，并且使得各变量的取值范围一致。

利用均值归一化，可以得到一个比较理想的结果：

[x_i=frac{x_i-μ_i}{s_i} ]

其中μ为x训练集的平均数，s为范围的标准差。

可以通过描绘以迭代层数为x轴的J(θ)图像来观察梯度下降算法是否合理运行。以此为依据，调整合理的学习率α。

梯度下降算法中的偏导数，可能不一定好计算，在之前的单变量线性回归中，分析过当(frac{∂}{∂θ_j}J(θ)=0)时算法到达边界，根据这个条件，给出下列算法：
对于一组训练集：

可以分别写成矩阵：

[X=left[ egin{matrix} 1 & 2104 & 5 & 1 & 45 \ 1 & 1416 & 3 & 2 & 40 \ 1 & 1534 & 3 & 2 & 30 \ 1 & 852 & 2 & 1 & 36 end{matrix} ight] ]

和向量：

[y=left[ egin{matrix} 460 \ 232 \ 315 \ 178 end{matrix} ight] ]

则θ公式为：

[θ=(X^TX)^{-1}X^Ty ]