非均衡数据分布的分类问题

原文:http://blog.sina.com.cn/s/blog_61c463090102w9js.html

paper学习分享:Large Unbalanced Credit Scoring Using Lasso-Logistic&nbs

2016-03-01 18:38:27

Large Unbalanced Credit Scoring Using Lasso-Logistic Regression Ensemble

最近研究风控领域的非均衡数据分布的分类问题,搜集一些paper阅读,在此分享该paper的思想,可以基于实际数据集操作,实验。

中心思想:基于规则化的LR模型作为基础学习器,然后对基础学习器进行集成学习

贡献点:

(1)基于规则化的LR进行ensemble;

(2)数据均衡化处理,基于聚类算法和bagging算法

(3)提出两种新的变量重要性度量方式

数据集:http://www.kaggle.com/c/GiveMeSomeCredit

业务:信用评分

模型:评分卡模型

挑战:数据高度不均衡,数据倾斜

data collected are usually highly unbalanced or skewed,常见算法

Cost-sensitive learning and re-sampling approaches

Lasso-logistic regression ensemble(LLRE)

lasso-LR

bagging Algorithm

LLRE 算法

(1)数据均衡化处理,基于变量的相似性,对majority class进行聚类,得到subgroup数据;

(2)数据多样性处理,对minority class进行resample bagging处理;

(3)合并上述majority 和 minority sub-group数据集,得到sub-dataset;

ensemble方法

加权平均,权重计算

wi = 1 / (1 + exp(-pi)),其中wi表示第i个分类器的权重,pi表示第i个分类器在第i个obs验证数据集上的性能

变量重要性评估

(1)LLR-occurrence measure

The presence or absence of a predictor variable in the Lasso model naturally indicates whether it is closely related to the outcome variable or not

(2)基于AUC decrease确定变量重要性

模型效果比较(基于kaggle数据集)

RunNo LLRE RF LLR CART

1 0.8598 0.857 0.8571 0.7632

2 0.8553 0.8538 0.8526 0.7676

3 0.8662 0.8609 0.8651 0.7786

4 0.8602 0.8576 0.8577 0.7778

5 0.858 0.8564 0.8559 0.7746

6 0.8662 0.8628 0.8638 0.7689

7 0.8544 0.8536 0.8526 0.77

8 0.8619 0.8617 0.8589 0.7749

9 0.8657 0.8606 0.8636 0.7832

10 0.8575 0.8569 0.8561 0.7665

11 0.8622 0.8578 0.8604 0.7762

12 0.8565 0.8551 0.8542 0.7748

13 0.8576 0.8519 0.8573 0.7763

14 0.8573 0.8537 0.8547 0.7761

15 0.8638 0.8648 0.8606 0.7699

16 0.8567 0.8535 0.8547 0.7728

17 0.8586 0.8579 0.8558 0.7783

18 0.8696 0.8631 0.8666 0.7792

19 0.8529 0.8523 0.8506 0.77

20 0.8651 0.8607 0.8609 0.7732

参考paper:

​http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0117844

大数据集下的非均衡数据分布的分类问题更为突出,可以借鉴一些思路引入到实际工作之中,反欺诈等等。​

原文地址:https://www.cnblogs.com/zhizhan/p/5238881.html