线性回归模型

给定由d个特征描绘的样本x=(x₁;,x₂;...;x_d)，其中x_i表示样本的第i个特征的取值，故预测函数的一般形式为

f(x)=w₁x₁+w₂x₂+...+w_dx_d+b

一般写成向量形式

f(x)=wx+b

首先讨论最简单的形式：一元线性回归模型，即数据集只含一个特征

f(x_i)=wx_i+b

模型评估函数用最小均方误差函数：

E(w,b)=arg min(f(x_i)-yi)²

=arg min(wx+b-y_i)²

为了最小化函数E(w,b)，分别对w和b求导

∂E(w,b)/∂w=2(w∑x_i-∑(y_i- b)x_i)--------1

∂E(w,b)/∂b=2(mb-∑(y_i-wx_i))----------2

其中i=0,1,...,m(m为样本数)

令1和2式等于0：

∂E(w,b)/∂w=0

∂E(w,b)/∂b=0

既可以得到w和b的值

现在讨论多元模型：即样本由多个特征描绘

f(X_i)=W^TX_i+b

令W*=(W,b)

X=(x₁^T,1;...;x_m^T,1)

得到：

E(W*)=arg min(Y-XW*)^T(Y-XW*)

对W求导:

∂E(W)/∂W=2X^T(XW*-Y)

如果X^TX是非奇异矩阵,则

W*=(X^TX)^-1X^TY

但是大多数情况下矩阵（X^TX）往往是非方阵，所以不可求（X^TX）的逆