多元线性回归的预测

　　回归模型除了对参数进行估计和检验，以弄清楚变量的相关性和因果性之外，另一个目的便是进行预测。

　　那么，由OLS方法的出来的预测结果是否可靠呢？预测结果的可靠性又会受什么因素的影响呢？除了点估计的预测结果，能否有区间估计的预测结果呢？

　　本文就这些问题，来进行一一探讨

1.引入why？

　　回归模型除了对参数进行估计和检验，以弄清楚变量的相关性和因果性之外，另一个目的便是进行预测。

　　那么，由OLS方法的出来的预测结果是否可靠呢？预测结果的可靠性又会受什么因素的影响呢？除了点估计的预测结果，能否有区间估计的预测结果呢？

　　本文就这些问题，来进行一一探讨

2.问题具体是什么?what

首先，说明初始的多元线性估计模型：

(1)

　　在多元线性估计的过程中，我们已经得出了线性模型的估计形式

（2），

其中是我们多元线性回归模型的参数估计值

那么，现在我们有了模型形式以及参数的估计值。在被给定另一组自变量样本的条件下。

我们对此时Y的估计为：（3）

需要注意的是，上式只是对Y预测值的估计，并非对Y的估计。因为由公式（1）看出，Y是由两部分组成的，只是的估计，模型的随机项是无法估计的。所以我们说（3）式只是对Y的预测值的估计。

那么现在问题来了，我们现在求得的只是一个预测值的估计，那么Y的预测值E(Y₀)的区间估计能否得出，进一步Y₀的估计区间又能不能得出呢？

什么？为什么要进行区间估计？很简单，因为只有点估计的话，你根本不知道点估计靠不靠谱，如果告诉你你下次考试预计分数是95，以及90-100这个分数区间包含你下次考试的分数的概率为90%，你觉得那种说法更靠谱呢？

3.解决思路

构造统计量，该统计量要分别包括E(Y₀)

对于E(Y₀)的区间估计：

易知:

,

则可以通过y(hat)服从正态分布，但是方差未知，明显，可以用样本方差来进行t统计量的构建

对于Y₀ 的区间估计

发现

服从正态分布，我们是知道的，而的分布也是有假设的，那么e₀的分布状况也就能够轻松获得了

4.解决过程

对于的区间估计

对于的区间估计

注：t分布是由正态分布推导出来的。

其中，e为样本标准差。

总结

从

可以看出

x0越与估计样本x差异大，区间也就越大，估计也就越不精准，这就是为什么回归模型不适合外推
x的共线性越大，也就越小，从而的估计区间也就越大，估计越不精准。

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/pingzeng/p/5036806.html