Logistic 回归模型 第一遍阅读笔记

MLE :最大似然估计,求得的这套参数估计能够通过指定模型以最大概率在线样本观测数据

必须来自随机样本,自变量与因变量之间是线性关系

logistic 回归没有关于自变量分布的假设条件,自变量可以连续,也可以离散,不需要假设他们之间服从多元正太分布,当然如果服从,效果更好

logistic 回归对多元共线性敏感,自变量之间存在多元共线性会导致标准误差的膨胀              ????

最大似然的性质:

一致性,渐进有效性,渐进正态性

一致性表示当样本规模增大时,模型参数向真值收敛,变得无偏

渐进有效性表示规模很大时参数估计的标准误 standard error 相应缩小

渐进正态性表示规模很大的时候,参数估计值的分布趋近正态分布,我们可以进行假设的显著性检验与计算参数的置信区间

样本数小于100时最大似然风向较大,大于500就比较充分了

6.1.1 筛选自变量

对每个变量独立进行显著性检验,对于连续的变量,我们用单变量的logistic回归进行显著性检验。对于离散的,进行二维表分析。  这个显著性的值一般是0.25

6.1.2 模型比较

嵌套,模型用L.R.检验,不嵌套的模型使用信息测度指标,见3.1.4节

6.1.3

逐步比较得到最后的我们期望需要的变量

7.数据结构的不合理情况的解决方案

过离散,空单元,完全分离,多元共线性

berkeleysong
原文地址:https://www.cnblogs.com/berkeleysong/p/3733900.html