最小二乘法

1、什么是最小二乘思想？
简单地说，最小二乘的思想就是要使得观测点和估计点的距离的平方和达到最小.这里的“二乘”指的是用平方来度量观测点与估计点的远近（在古汉语中“平方”称为“二乘”），“最小”指的是参数的估计值要保证各个观测点与估计点的距离的平方和达到最小。从这个上也可以看出，最小二乘也可用于拟合数据模型。

这当中涉及到如下问题：
①观测点和距离点的距离：这个距离也被称为误差。既然要估计，总希望找到最好的估计值，那么误差越小越好。
②为什么是距离的平方和：距离的平方和也就是误差的平方和，既然误差越小越好，那是否可以用绝对值来代替？；楼主觉得用绝对值代替的这个想法是可以的，只是在之后的运算求值时处理比较复杂。（楼主隐约记得取绝对值最小的方法好像是最小一乘法）
③为什么平方求解方便呢？那就要从公式讲起了（楼主说好不上复杂公式推导的，好吧，这里就简单描述一下吧……）
设拟合直线是 ,距离（或误差）为，那么最小二乘的思想就是让等式具有最小值。那么这就需要做求偏导了。（这也就是为什么最小二乘有个要求就是数据需要具有二阶矩），大致推导过程如下：

整理后对方程组求解

最终解得

c++代码实现

 1 /*
 2 最小二乘法C++实现
 3 参数1为输入文件
 4 输入 ： x
 5 输出： 预测的y  
 6 */
 7 #include<iostream>
 8 #include<fstream>
 9 #include<vector>
10 using namespace std;
11 
12 class LeastSquare{
13     double a, b;
14 public:
15     LeastSquare(const vector<double>& x, const vector<double>& y)
16     {
17         double t1=0, t2=0, t3=0, t4=0;
18         for(int i=0; i<x.size(); ++i)
19         {
20             t1 += x[i]*x[i];
21             t2 += x[i];
22             t3 += x[i]*y[i];
23             t4 += y[i];
24         }
25         a = (t3*x.size() - t2*t4) / (t1*x.size() - t2*t2);  // 求得β1 
26         b = (t1*t4 - t2*t3) / (t1*x.size() - t2*t2);        // 求得β2
27     }
28 
29     double getY(const double x) const
30     {
31         return a*x + b;
32     }
33 
34     void print() const
35     {
36         cout<<"y = "<<a<<"x + "<<b<<"
";
37     }
38 
39 };
40 
41 int main(int argc, char *argv[])
42 {
43     if(argc != 2)
44     {
45         cout<<"Usage: DataFile.txt"<<endl;
46         return -1;
47     }
48     else
49     {
50         vector<double> x;
51         ifstream in(argv[1]);
52         for(double d; in>>d; )
53             x.push_back(d);
54         int sz = x.size();
55         vector<double> y(x.begin()+sz/2, x.end());
56         x.resize(sz/2);
57         LeastSquare ls(x, y);
58         ls.print();
59         
60         cout<<"Input x:
";
61         double x0;
62         while(cin>>x0)
63         {
64             cout<<"y = "<<ls.getY(x0)<<endl;
65             cout<<"Input x:
";
66         }
67     }
68 }