回归分析中常见的“门槛模型”！

文章来源：社经研究社（ID：SES-2019）

在回归分析中，我们常常关心系数估计值是否稳定，即如果将整个样本分成若干个子样本分别进行回归，是否还能得到大致相同的估计系数。对于时间序列数据，这意味着经济结构是否随着时间的推移而改变。对于横截面数据，比如，样本中有男性与女性，则可以根据性别将样本一分为二，分别估计男性样本与女性样本。如果用来划分样本的变量不是离散型变量而是连续型变量，比如，企业规模、人均国民收入，则需要给出一个划分的标准，即“门槛值"。

门槛模型是什么

门槛效应，是指当一个经济参数达到特定的数值后，引起另外一个经济参数发生突然转向其它发展形式的现象（结构突变）。作为原因现象的临界值称为门限值。

例如，在应用研究中，人们常常怀疑大企业与小企业的投资行为不同，那么如何区分大企业与小企业呢？另外，受到流动性约束的企业与没有流动性约束企业的投资行为也可能不同，如何通过债务股本比或其他指标来区分这两类企业？再比如，发达国家与发展中国家的经济增长规律可能不同，如何通过人均国民收入这一指标来区分一个国家发达与否?

总之，经济规律可能是非线性的,其函数形式可能依赖于某个变量(称为“门限变量")而改变。如果模型的研究对象包含多个个体多个年度，那么就是面板门槛模型。

面板门槛模型的原理

进行回归分析，一般需要研究系数的估计值是否稳定。很多经济变量都存在结构突变问题，使用普通回归的做法就是确定结构突变点，进行分段回归。这就像我们高中学习的分段函数。

门槛回归模型的实质是利用门槛值将样本分为两组，只有当两组样本的估计参数显着不同时，才使用门槛回归模型，否则说明不存在门槛，使用线性模型就可以了，因此必须对模型进行显著性检验。

对于大样本、面板数据如何寻找结构突变点呢？Hansen(1999)考虑了如下的固定效应（fixed effects）的门限回归模型。

其优点体现在：
(1)不需要给定非线性方程的形式，门槛值及其个数完全由样本数据内生决定；
(2)该方法提供了一个渐近分布理论来建立待估参数的置信区间，同时还可运用 bootstrap方法来估计门槛值的统计显着性。

门槛变量的选择可由理论模型外生决定，汉森指出，由于门槛回归方法是通过对门槛变量进行排序后进行模型估计的，如果门槛变量含有较强的时间趋势，就会将这种趋势带入模型中，趋势的存在将改变突变点似然分布检验，更重要的是，在这种情况下，置信区间无法构建，使得问题无法研究，因此在选取门槛变量时尽量避免选择带有趋势的绝对指标，而选择相对指标。

面板门槛模型的stata操作

1.threshold命令

depvar被解释变量，indepvars 解释变量，threshavar门槛变量。options表示附加的选择项。

2. xthreg命令

depvar被解释变量，indepvars 解释变量，qx(varname)门限变量，thnum(#) is 门槛值个数，在stata门槛值是必要项目，需要等于大于1，小于等于3，默认值为1。
3.xtthres命令

thres(varname)指定门槛值变量，dthres(varname)指定将显示门槛值效果的变量，bs1(#), bs2(#), bs3(#) 分别在单门槛值、双门槛值和三门槛值模型中指定bootstrap次数，level(#)指定置信区间的置信度（百分比），默认值为级别（95）。minobs 指定在搜索时每个区域中的最小观测数。

如果想更深入了解的小伙伴可以在stata中使用help命令查看细节~

参考文献：

1. 陈强. 高级计量经济学及Stata应用[M]. 北京: 高等教育出版社, 2014.

2. 部分相关资料来源于百度百科和360百科。

资料来源：南大商院研会