数学建模--医疗保险欺诈的发现--模型:评价类的数学模型和多元统计模型--方法:”改进的”主成分分析,聚类分析,判别分析,相关分析

东北三省数学建模竞赛,省一等奖,我主要负责模型的建立和求解。版权所有,转载请注明出处。

A题:医保欺诈行为的主动发现

摘  要

      针对近年来中国医保制度的完善,医保医疗保险基金积累,在享受医疗保险的过程中可能存在一定的医疗欺诈行为,需要我们从给出的数据中找出可能的欺诈记录。本文提供了两种有效的找出欺诈记录的模型:评价类数学模型和多元统计分析模型。

     本文(1)使用评价类数学模型,采用改进的主成分分析法,从明细指标中提取主成分,主成分很好地保留了明细指标所携带的信息,我们建立了一个综合评价函数,该主函数的涉及到的主成分有病人科室,医嘱子类,单价,医嘱数量,费用,核算分类。从而得到综合评价值,所给的数据求出的综合评价值的范围是-4.78708--26.49655,从而建立综合评价标准(MIF);(2)使用多元统计模型,采用系统聚类法进行聚类分析,对新加入的数据用SPSS画出聚类分析图,从而判定新加入的数据属于综合评价标准的哪一个等级;(3)使用多元统计分析模型,为了说明我们的结果有效可信,采用判别分析法中的马氏距离判别法,Fisher判别法和Bayes判别法,进行判定医疗保险记录属于哪个分类等级。同时得到相关系数得分,来验证综合评价值的准确性,因此我们认为用综合评价标准(MIF)对医疗保险明细进行分级是合理和科学,然后根据错判概率确定可能存在欺诈记录属于哪种分类级别,我们来确定哪种欺诈性质。

    最后,本文对两种模型进行了比较,并对它们的优缺点进行分析,提出了改进方向。

    文中分别利用上述模型对可能存在的欺诈记录进行了分级,把欺诈分为不可能存在欺诈,可能存在欺诈,存在一般欺诈,存在严重欺诈,见表1;欺诈的判断结果见附录Ⅲ。

表1  医疗保险欺诈的综合评价标准(MIF)

综合评价标准

>=21

11-20

1-10

<=1

分类等级

4

3

2

1

欺诈的性质

存在严重欺诈

存在一般欺诈

可能存在欺诈

不可能存在欺诈

关键字:改进主成分分析  综合评价标准  多元统计分析模型  判别分析  相关分析

。。。。。。。。

。。。。。。

。。。

。。。

3.模型假设

1.所有表征和影响变化的明细指标都是在医疗保险基金系统下确定的;

2.不考虑医保卡拥有人年龄;

3.假设不考虑主观因素对欺诈明细指标的影响

4.病人的基本资料,费用明细表等相关表间的一个指标明细不会影响另外一个指标明细

5.不考虑在信息数据的统计与录入上的存在问题

6.假设表中所给的统计数据的明细具有一定的代表性

7.假设问题中明细指标都可以反映实际情况

4.模型Ⅰ:改进的主成分分析法数学模型

本小节,我们要处理的问题是建立了一个综合评价函数,从而得到综合评价值,从而建立综合评价标准(MIF)。对可能存在的欺诈记录进行了分级,把欺诈分为不可能存在欺诈,可能存在欺诈,存在一般欺诈,存在严重欺诈。分为4个部分:1.符号约定,2.模型建立,3.模型求解,4.结果分析。

4.1符号约定

:明细指标中第个数据的第项明细指标

:医疗保险明细指标向量

:最小负数的相反数

:为样本平均值

:为标准差

:表示方差贡献率

:表示累积贡献率。

:综合评价函数,即综合评价指标

:为明智指标提出来的主成分值。

:表示第个原始明细指标对第个主成分的荷载值

:表示第个主成分的协方差

4.2 模型建立

1.医疗保险明细指标欺诈的提取基于题目中所给的明细指标数量太多,我们舍弃了医疗保险的无关明细指标,选取医疗保险中相关的明细指标作为判断医疗保险欺诈的属性值。分别为:流水号,病人科室,医嘱子类,单价,医嘱数量,费用,核算分类。

传统的主成分分析是一种线性降维技术,但是本文中医疗保险明细指标呈现非线性,主成分分析的降维效果不理想,甚至出现评价偏差很大的结果。为此,我们通过对传统主成分进行改进,使其适用于非线性数据。

2.数据的线性化改进

在对数据进行标准化处理之前,为了防止矩阵中的数据为非正数,可以将所有数据加上一个略小于最小负数的相反数,这样平移不会改变结果,按平移后的矩阵进行如下对数变换:

通过对医疗保险明细指标的计算,我们将原始数据与线性化处理后的原始数据进行对比,可以看到在累积贡献率方面,传统方法要选择前五个达到83%,而改进的主成分分析法只需要选择前面的四个就能达到84%以上的累积贡献率,同时改进前第一主成分的贡献率为1.688,改进后的第一主成分的贡献率达到2.078,几乎是传统方法前两个主成分之和。这说明对初始数据进行线性化处理具有一定的优越性。改进前后的主成分累积贡献率对比见表4-1。

表4-1  改进前后的主成分累积贡献率对比

成份

初始特征值(改进前)

初始特征值(改进后)

合计

方差的 %

累积 %

合计

方差的 %

累积 %

1

1.688

24.111

24.111

2.078

27.111

29.111

2

1.280

18.289

42.400

1.580

20.209

52.400

3

1.120

16.006

58.406

1.363

18.506

68.406

4

1.013

14.473

72.880

1.113

16.273

84.880

5

.838

11.979

84.858

 

 

 

6

.683

9.760

94.618

 

 

 

7

.377

5.382

100.000

 

 

 

提取方法:主成份分析。

3.医疗保险明细指标主成分的提取与综合评价函数

主成分分析是一种降维的统计方法,它的工作目标是在力求数据信息丢失最少的原则下,对高维变量空间进行降维处理,在降低计算复杂度的同时又不失计算的准确性。它的主要步骤如下:

(1)为了消除量纲的影响,首先需要将原始数据进行标准化。以医疗保险明细指标为例,医疗保险明细指标向量为,对数据进行如下的标准化变换:

其中,为样本平均值,;为标准差,;于是得到标准化矩阵。

(2)求出标准化矩阵的相关系数矩阵

(3)解相关矩阵的特征方程,得到个特征根,计算各主成分的方差贡献率和累积贡献率,用表示方差贡献率,表示累积贡献率。

根据累积贡献率的大小在保证数据累积贡献率超过80%的前提下,选取最少的m个主成分。

(4)构造综合评价函数,即综合评价指标。评价函数可表示为

其中,为提出来的主成分值。

4.3模型求解

正文中我们以医疗保险明细指标为例研究判定医疗保险欺诈之间的关系,主成分分析中每个原始指标对主成分的信息量提供反映在主成分荷载矩阵见表4-2,公因子方差见表4-3。

表4-2  医疗保险明细指标主成份荷载矩阵a

 

成份

 

1

2

3

4

流水号

.142

-.300

.690

-.083

病人科室

-.085

.488

-.588

-.050

医嘱子类

-.381

.252

.253

.735

单价

.693

.333

.118

.404

医嘱数量

-.198

.611

.402

-.538

费用

.762

.462

.111

-.061

核算分类

-.644

.437

.216

.082

提取方法 :主成分分析法。

  1. 已提取了 4 个成份。

 

表4-3 公因子方差

 

初始

提取

流水号

1.000

.593

病人科室

1.000

.594

医嘱子类

1.000

.813

单价

1.000

.769

医嘱数量

1.000

.863

费用

1.000

.810

核算分类

1.000

.659

提取方法:主成份分析。

从表中可知:

(1)费用,核算分类,单价,医嘱子类在第一主成分中有较高的载荷,说明第一成分基本反映了这4个指标。

(2)医嘱数量,病人科室,费用,核算分类在第二主成分中较高的荷载,说明第二主成分基本反映了这4个指标。

(3)流水号,病人科室,医嘱数量在第三主成分中有较高的荷载。

(4)医嘱子类,医嘱数量,单价在第三主成分中有较高的荷载。

总之这7个指标在这四个主成分因子中都得到了很好的反映。

为了挑选出医疗保险明细指标中最具有影响力的明细指标,我们对每一个原始明细指标定义一个影响力因子,它的定义为

其中,表示第个原始明细指标对第个主成分的荷载值;表示第个主成分的协方差;。

根据影响力因子的大小我们对原始医疗保险明细指标进行了影响力评定,由于第一成分的协方差最大,所以它对影响因子的影响也较大,经过计算我们挑选了个影响因子较大的原始医疗保险明细指标,如表4-4所示。

表4-4  大影响因子及明细指标

明细指标

病人科室

医嘱子类

单价

医嘱数量

费用

核算分类

影响因子

0.594

0.813

0.769

0.863

0.810

0.659

利用主成分分析法中的综合评价函数

 

其中,表示类主成分的方差贡献率;为提取出来的个主成分值。

计算出多个流水账号的的得分,这个分数综合体现了客观因素医疗明细直指标在各个流水账号间的差异。得到表4-5

表4-5  明细指标分类等级与综合评价值结果

流水号

因子1得分

因子2得分

因子3得分

因子4得分

Y(综合评价值)

39629128

33.57704

21.4767

8.77449

19.63547

26.49655

38761051

33.51887

21.63872

8.34834

19.69245

26.4299

38228382

33.48318

21.73814

8.08685

19.72742

26.38901

……

……

……

……

……

……

40017584

26.98308

18.96599

6.95949

0.82314

18.7669

40022135

20.96244

12.14692

6.55069

12.12521

16.40657

39921419

20.95569

12.16572

6.50125

12.13183

16.39884

……

……

……

……

……

……

39105002

13.3631

8.01966

3.37781

5.0676

9.819741

38196937

13.30225

8.18915

2.93204

5.1272

9.75003

38209912

13.5123

8.57873

3.09601

2.78695

9.521273

……

……

……

……

……

……

37798421

1.57724

1.90533

1.06745

-2.33781

0.999784

38364378

0.96632

2.24059

1.5016

-2.00468

0.999783

39252220

2.14275

0.94924

-0.26578

-0.64654

0.999727

38752021

-0.81093

0.1971

1.39297

-0.15508

-1.26722E-06

38229554

-0.76771

0.30258

1.11723

-0.07731

-1.56845E-06

40014234

-0.67437

-0.06496

1.18339

0.16705

-2.42833E-06

……

……

……

……

……

……

我们根据医疗保险明细指标对存在医疗保险欺诈可能进行分类,综合评价值在-4.78708---26.49655之间。根据统计学分组原则,分为4个等级:存在严重欺诈,存在一般欺诈,可能存在欺诈,不可能存在欺诈,见表4-6;由医疗保险明细指标的得分大小,由于数据量较大,所以我们随机选取每一个等级的二十项数据,不足的选取所有的数据,得到各个流水账号分类区间情况,见表4-7。

表4-6 医疗保险欺诈的综合评价标准(MIF)

综合评价标准

>=21

11-20

1-10

<=1

分类等级

4

3

2

1

欺诈的性质

存在严重欺诈

存在一般欺诈

可能存在欺诈

不可能存在欺诈

表4-7  分类等级结果

分类

等级

分类区间

流水账号

4

>21

39629128

38195417

37031092

38480050

 

4

38761051

38076991

40016500

37912544

 

4

38228382

37606917

38935407

36542288

 
   

3

11---20

40017584

39657082

38605624

37617059

35814679

3

40022135

39631004

38345810

36711226

38483152

3

39921419

39418058

37377571

36257878

……

……

   

2

1---10

39105002

38071148

37620226

37797518

37797083

2

38196937

39531565

37800314

37797463

37797104

2

38209912

37767721

37797534

37797388

……

……

   

1

<1

37798421

39921382

39246465

38928716

38640459

1

38364378

39086790

37029862

38928448

39236177

1

39252220

39247359

39919228

39908026

……

1

38752021

38225560

39104503

39930711

39519026

1

38229554

39661190

37804554

39907528

39240902

1

40014234

39527358

37804571

38768325

……

……

   

4.4结果分析

根据问题所得到结论,我们有理由相信建立的明细指标的综合评价值能够成为判定医疗保险欺诈的等级标准。

假设我们不考虑客观原因,例如医疗保险卡的丢失和主动借给别人使用的影响, 综合评价值与相关系数评分呈现正相关,所以我们可以把流水号,病人科室,医嘱子类,单价,医嘱数量,费用,核算分类。这几项的影响因子作为医疗保险的欺诈可能性判定的根据,根据算出的综合评价值。最后对应的等级标准判定属于哪个等级,从而确定该项消费记录是否存在医疗保险的欺诈。

5.模型Ⅱ:系统聚类分析法数学模型

本小节,我们要处理的问题是检验模型一的综合评价标准(MIF)。通过聚类分析,画出聚类图,判定所给的记录属于哪种分类分级,从而验证模型Ⅰ中的分类等级的科学合理。分为4个部分:1.符号约定,2.模型建立,3.模型求解,4.结果分析。

5.1 符号约定

:原来各类与新类之间的距离。

:分类对象

5.2 模型建立

类与类之间距离定义不同,产生不同的系统聚类法:最短距离法,最长距离法,中间距离法,重心法,类平均法,可变类平均法,可变法即离差平方和法。

原理:最短距离聚类法,是在原来的m×m距离矩阵的非对角元素中找出            ,把分类对象和归并为一新类,然后按计算公式 计算原来各类与新类之间的距离,这样就得到一个新的阶的距离矩阵; 再从新的距离矩阵中选出最小者,把和归并成新类;再计算各类与新类的距离,这样一直下去,直至各分类对象被归为一类为止。

。。。。。

。。。。。

。。。。。

6.模型Ⅲ:判别分析法数学模型
本小节,我们要处理的问题是验证综合评价标准的合理科学性,使用评价类数学模型,采用判别分析法中的马氏距离判别法,Fisher判别法和Bayes判别法,进行判定医疗保险记录属于哪个分类等级。同时得到相关系数得分,来验证综合评价值的准确性,然后根据错判概率确定可能存在欺诈记录属于哪种分类级别,我们来确定哪种欺诈性质。分为4个部分:1.符号约定,2.模型建立,3.模型求解,4.结果分析。
6.1 符号约定
: 个总体
:总体的均值
:协方差阵
:待测样本
6.2 模型建立
6.2.1距离判别法
距离判别法的基本思路是首先根据已知的分类数据计算各类的重心(均值),判别准则是对给的一类观测,若它与第 类重心最近,就认为它来自第 类,距离判别对总体分布没有特定要求。
多个总体的距离判别法
对于 个总体 ,假设其均值分别为: ,协方差阵分别为: ,(其中 ),待测样本为 ,其中 为样本 的 个检测指标,假设 的均值为 ,协方差为 ,判断 属于哪个总体。
当从 , 个总体中,取 个样本,分别记为 总体样本,再结合上面 个指标,这 个样本可以表6-1述如下:
表6-1 第j个总体样本(j=1,2…k)
变量指标
样本










… …




均值


(1)当待测样本与各总体样本的均值相等时,即
= ……= = ;
则相应的判别函数为:

(其中 , 表示 与 的马氏距离);
判断准则:如果对所有 有 成立,则 ,若存在 和 使得 成立,则待判。
当各样本总体的均值 和协方差阵 未知时,可以从 中抽取 ,i=1,2…k;则 和 的无偏估计 可以表示为:
,


(2)当各样本总体样本的均值不相等时,相应的判别函数为:

判别准则:若对所有 有 则 ,若存在 和 使得 成立,则待判。
6.2.2费歇(Fisher)判别法
(1)线性投影与Fisher准则函数
各类在 维特征空间里的样本均值向量:
, (4.5-2)
通过变换 映射到一维特征空间后,各类的平均值为:
, (4.5-3)
映射后,各类样本“类内离散度”定义为:
, (4.5-4)
显然,我们希望在映射之后,两类的平均值之间的距离越大越好,而各类的样本类内离散度越小越好。因此,定义Fisher准则函数:
(4.5-5)
使 最大的解 就是最佳解向量,也就是Fisher的线性判别式。
(2)求解
从 的表达式可知,它并非 的显函数,必须进一步变换。
已知: , , 依次代入(4.5-1)和(4.5-2),有:
, (4.5-6)
所以:
(4.5-7)
其中: (4.5-8)
是原 维特征空间里的样本类内离散度矩阵,表示两类均值向量之间的离散度大小,因此, 越大越容易区分。
将(4.5-6) 和(4.5-2) 代入(4.5-4) 式中:


(4.5-9)
其中: , (4.5-10)
因此: (4.5-11)
显然: (4.5-12)
称为原 维特征空间里,样本“类内离散度”矩阵。
是样本“类内总离散度”矩阵。
为了便于分类,显然 越小越好,也就是 越小越好。
将上述的所有推导结果代入 表达式:
可以得到:

其中, 是一个比例因子,不影响 的方向,可以删除,从而得到最后解:
(4.5-18)
就使 取得最大值, 可使样本由 维空间向一维空间映射,其投影方向最好。 是一个Fisher线性判断式。
这个向量指出了相对于Fisher准则函数最好的投影线方向。
6.2.3贝叶斯(Bayes)判别法
1. 设有总体 , 具有概率密度函数 。并且根据以往的统计分析,知道 出现的概率为 。即当样本 发生时,求 属于某类的概率。由贝叶斯公式计算后验概率,有:

则 判给 ,在正态的假定下, 为正态分布的
密度函数。
2.设有总体 , 具有概率密度函数 。并且根据以往的统计分析,知道 出现的概率为 , 。
是 的一个分划,判别法则为:
当样品X落入Di时,判
关键的问题是寻找 分划,这个分划应该使平均错判率最小。
6.3 模型求解
在运行SPSS后,可以得到一下结果。表6-2,表6-3显示系统处理数据的简明表。表6-4,共有6张为典型判别方程的方差分析结果,其特征值即组间平方和和组内平方和之比为4.121,典型相关系数为0.897,Wilks 的 为0.105,经过 的检验, 为653972.373, 。

 

表6-2 数据分析过程

未加权案例

N

百分比

有效

289799

100.0

排除的

缺失或越界组代码

0

.0

至少一个缺失判别变量

0

.0

缺失或越界组代码还有至少一个缺失判别变量

0

.0

合计

0

.0

合计

289799

100.0

 

表6-3 全局统计

分组

均值

标准差

有效的 N(列表状态)

未加权的

已加权的

1

病人科室

177.30

90.969

280201

280201.000

医嘱子类

16.69

10.304

280201

280201.000

单价

3.89

9.228

280201

280201.000

医嘱数量

34.75

46.925

280201

280201.000

费用

26.81

42.926

280201

280201.000

核算分类

1.81

.941

280201

280201.000

2

病人科室

202.24

99.898

9297

9297.000

医嘱子类

73.97

94.726

9297

9297.000

单价

43.54

81.409

9297

9297.000

医嘱数量

54.04

140.290

9297

9297.000

费用

240.71

213.854

9297

9297.000

核算分类

1.05

.224

9297

9297.000

3

病人科室

112.25

28.240

289

289.000

医嘱子类

11.03

4.382

289

289.000

单价

877.35

120.573

289

289.000

医嘱数量

1.18

2.356

289

289.000

费用

908.05

263.290

289

289.000

核算分类

1.00

.000

289

289.000

4

病人科室

79.42

61.277

12

12.000

医嘱子类

8.92

2.575

12

12.000

单价

1808.91

93.171

12

12.000

医嘱数量

1.00

.000

12

12.000

费用

1808.91

93.171

12

12.000

核算分类

1.00

.000

12

12.000

合计

病人科室

178.03

91.358

289799

289799.000

医嘱子类

18.52

22.191

289799

289799.000

单价

6.10

35.369

289799

289799.000

医嘱数量

35.34

52.661

289799

289799.000

费用

34.63

75.037

289799

289799.000

核算分类

1.79

.936

289799

289799.000

 

表6-4用典型判别函数特征值

特征值

函数

特征值

方差的 %

累积 %

正则相关性

1

4.121a

82.7

82.7

.897

2

.865a

17.3

100.0

.681

3

.000a

.0

100.0

.007

a. 分析中使用了前 3 个典型判别式函数。

 

 

Wilks 的 Lambda

函数检验

Wilks 的 Lambda

卡方

df

Sig.

1 到 3

.105

653972.373

18

.000

2 到 3

.536

180633.320

10

.000

3

1.000

13.106

4

.011

 

 

 

 

 

标准化的典型判别式函数系数

 

函数

 

1

2

3

病人科室

-.007

.036

.351

医嘱子类

.574

.886

.244

单价

.882

-.511

.092

医嘱数量

.091

-.070

.574

费用

.534

.794

-.235

核算分类

-.016

-.295

.423

 

 

典型判别式函数系数

 

函数

 

1

2

3

病人科室

.000

.000

.004

医嘱子类

.029

.045

.012

单价

.050

-.029

.005

医嘱数量

.002

-.001

.011

费用

.009

.014

-.004

核算分类

-.017

-.319

.457

(常量)

-1.182

-.583

-2.009

组质心处的函数

分组

函数

1

2

3

1

-.238

-.133

3.940E-5

2

5.442

4.459

.000

3

51.515

-13.337

-.083

4

106.507

-28.091

.962

在组均值处评估的非标准化典型判别式函数

非标准化系数

 

 

结构矩阵

 

函数

 

1

2

3

单价

.824*

-.528

-.165

费用

.381*

.337

-.329

医嘱子类

.119

.484*

.483

核算分类

-.047

-.122

.746*

医嘱数量

.007

.071

.642*

病人科室

.002

.058

.388*

判别变量和标准化典型判别式函数之间的汇聚组间相关性

 按函数内相关性的绝对大小排序的变量。

*. 每个变量和任意判别式函数间最大的绝对相关性

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

通过判别方程的标准化系数,确定各变量对结果的作用大小。

标准化系数函数1中病人科室-0.007,医嘱子类0.574,单价0.882,医嘱数量0.091,费用0.534,核算分类-0.016。其中单价对分类的影响最大,而核算分类对分类的影响最小。显示病人科室的变量与函数间的相关系数为0.002,医嘱子类的变量与函数间的相关系数为0.119,单价的变量与函数间的相关系数为0.824,医嘱数量的变量与函数间的相关系数为0.007,费用的变量与函数间的相关系数为0.381,核算分类的变量与函数间的相关系数为-0.047。

标准化系数函数2中病人科室0.036,医嘱子类0.886,单价-0.511,医嘱数量-0.07,费用0.794,核算分类-0.295。其中医嘱子类对分类的影响最大,而病人科室对分类的影响最小。显示病人科室的变量与函数间的相关系数为0.058,医嘱子类的变量与函数间的相关系数为0.484,单价的变量与函数间的相关系数为-0.528,医嘱数量的变量与函数间的相关系数为0.071,费用的变量与函数间的相关系数为0.337,核算分类的变量与函数间的相关系数为-0.122。

标准化系数函数3中病人科室0.351,医嘱子类0.244,单价0.092,医嘱数量0.574,费用-0.235,核算分类0.423。其中医嘱数量对分类的影响最大,而单价对分类的影响最小。显示病人科室的变量与函数间的相关系数为0.388,医嘱子类的变量与函数间的相关系数为0.483,单价的变量与函数间的相关系数为-0.165,医嘱数量的变量与函数间的相关系数为0.071,费用的变量与函数间的相关系数为0.642,核算分类的变量与函数间的相关系数为0.746。

    根据系统显示的非标准化判别方程系数,得到判别方程为:

D1=0.029*医嘱子类+0.05*单价+0.002*医嘱数量+0.009*费用+(-0.017)*核算分类-1.182

D2=0.045*医嘱子类-0.029*单价-0.001*医嘱数量+0.014*费用+(-0.319)*核算分类-0.583

D3=0.004*病人科室+0.012*医嘱子类+0.005*单价+0.011*医嘱数量+(-0.004)* 费用+0.457*核算分类-2.009

我们可以把流水号,病人科室,医嘱子类,单价,医嘱数量,费用,核算分类。这几项的影响因子作为医疗保险的欺诈可能性判定的根据,第一组的中心点为-0.238,第二组的中心点为5.442,第三组的中心点为51.515,第四组中心点为106.507。

将需要判定的六项指标带入到三个判别方程中,分别求出各项的分数,然后求平均分记为相关系数得分,见附表Ⅲ。我们以综合评价值得到的表,比较两个相关的性,发现综合评价值与相关系数评分呈现正相关,所以我们建立的医疗保险欺诈可能的等级标准合理。

通过对比分析,我们发现用综合评价值与相关系数得分相关性很强,从图6-1,图6-2,图6-3,图6-4中分析可知,结果正相关,因此我们认为用综合评分对医疗保险明细进行分级是合理和科学。

。。。。

。。。。

。。。。

附录

附录Ⅰ:主成分分析中的相关矩阵

相关矩阵

 

 

流水号

病人科室

医嘱子类

单价

医嘱数量

费用

核算分类

相关

流水号

1.000

-.161

-.020

.021

-.006

.038

-.049

病人科室

-.161

1.000

.007

-.023

.026

.072

.104

医嘱子类

-.020

.007

1.000

-.009

.028

-.123

.238

单价

.021

-.023

-.009

1.000

-.097

.487

-.121

医嘱数量

-.006

.026

.028

-.097

1.000

.147

.260

费用

.038

.072

-.123

.487

.147

1.000

-.263

核算分类

-.049

.104

.238

-.121

.260

-.263

1.000

 

附录Ⅱ:聚类分析表

  聚类表(聚类的凝聚过程)

群集组合

系数

首次出现阶群集

下一阶

群集 1

群集 2

群集 1

群集 2

1

27

28

.000

0

0

2

2

19

27

.000

0

1

4

3

25

26

.000

0

0

4

4

19

25

.000

2

3

6

5

23

24

.000

0

0

6

6

19

23

.000

4

5

8

7

21

22

.000

0

0

8

8

19

21

.000

6

7

9

9

19

20

.000

8

0

31

10

16

17

.000

0

0

11

11

10

16

.000

0

10

13

12

14

15

.000

0

0

13

13

10

14

.000

11

12

15

14

12

13

.000

0

0

15

15

10

12

.000

13

14

16

16

10

11

.000

15

0

25

17

6

7

.000

0

0

18

18

1

6

.000

0

17

20

19

4

5

.000

0

0

20

20

1

4

.000

18

19

22

21

2

3

.000

0

0

22

22

1

2

.000

20

21

28

23

35

36

19.763

0

0

24

24

35

37

22.744

23

0

26

25

10

18

26.444

16

0

34

26

34

35

30.482

0

24

27

27

34

38

48.712

26

0

29

28

1

8

70.562

22

0

35

29

31

34

98.901

0

27

30

30

29

31

155.351

0

29

32

31

19

32

190.398

9

0

34

32

29

33

196.161

30

0

33

33

29

30

298.385

32

0

36

34

10

19

383.045

25

31

36

35

1

9

581.374

28

0

37

36

10

29

779.626

34

33

37

37

1

10

1172.955

35

36

0

 

 

 

附录Ⅲ:综合评价值以及分类等级1,2,3,4级(判定结果)

分类等级1

 序号

流水号

病人

科室

医嘱子类

单价

医嘱数量

费用

核算分类

Y(综合评价值)

分类

等级

1

35797868

203

23

1.06875

48

51.3

1

-0.093229877

1

2

35797869

203

23

1.915

12

22.98

1

-0.243294265

1

4

35797871

203

23

1.611667

24

38.68

1

-0.167827942

1

5

35797872

203

1

1.478

20

29.56

1

-0.366347366

1

6

35797875

143

6

1.7858

1

1.79

1

-0.434527246

1

7

35797878

143

6

0.138

1

0.14

1

-0.457814317

1

8

35797884

143

6

1.7858

1

1.79

1

-0.434522947

1

9

35797887

311

18

5

8

40

1

-0.236074527

1

10

35797888

311

1

0.051

30

1.53

1

-0.537280012

1

11

35797889

311

1

0.064

3

0.19

1

-0.574493567

1

12

35797893

311

6

0.118

2

0.24

1

-0.539678607

1

13

35797896

311

6

0.074

1

0.07

1

-0.541996685

1

14

35797903

311

6

2.67

1

2.67

1

-0.505303563

1

15

35797914

311

14

0.158

2

0.32

1

-0.482556648

1

16

35797919

311

6

0.66

1

0.66

1

-0.533700118

1

17

35797929

311

12

3.67

1

3.67

1

-0.448880458

1

18

35797930

311

6

0.118

2

0.24

1

-0.539676799

1

19

35797936

311

12

5.08

1

5.08

1

-0.42895943

1

21

35797940

311

6

0.138

1

0.14

1

-0.54106492

1

22

35797941

311

6

3.91

1

3.91

1

-0.48778308

1

23

35797944

185

12

3.88

1

3.88

1

-0.383472447

1

24

35797945

185

6

0.11

2

0.22

1

-0.477397107

1

25

35797948

185

12

3.67

1

3.67

1

-0.386437987

1

26

35797949

185

21

1.174

2

2.35

1

-0.352258621

1

27

35797954

185

1

0.078

24

1.87

1

-0.480244784

1

28

35797955

185

23

2.63

10

26.3

2

-0.222366482

1

29

35797959

311

6

0.66

1

0.66

1

-0.533694011

1

30

35797980

143

23

2.551111

9

22.96

1

-0.210794793

1

31

35797981

311

12

4.16

1

4.16

1

-0.441956872

1

 

分类等级2

   序号

流水号

病人科室

医嘱子类

单价

医嘱数量

费用

核算分类

Y(综合评价值)

分类

等级

236966

39105002

143

6

550

2

1100

1

9.81974116

2

173072

38196937

143

6

550

2

1100

1

9.750030286

2

175425

38209912

112

6

370

4

1480

1

9.521272605

2

167471

38071148

111

1

61.65

36

2219.4

1

9.452200577

2

261611

39531565

106

6

186.09

10

1860.9

1

9.349800823

2

145780

37767721

15

6

186.09

10

1860.9

1

9.259486862

2

139186

37620226

106

6

186.09

9

1674.81

1

8.439103326

2

152992

37800314

329

6

604.5

1

604.5

1

8.14171349

2

152471

37797534

329

6

604.5

1

604.5

1

8.141499395

2

152467

37797518

329

6

604.5

1

604.5

1

8.14149907

2

152458

37797463

329

6

604.5

1

604.5

1

8.141494938

2

152433

37797388

329

6

604.5

1

604.5

1

8.141489346

2

….

 

分类等级3

   序号

流水号

病人科室

医嘱子类

单价

医嘱数量

费用

核算分类

Y(综合评价值)

分类等级

287213

40017584

112

6

370

10

3700

1

18.76689752

3

288445

40022135

10

11

1163.77

1

1163.77

1

16.40657241

3

283180

39921419

10

11

1163.77

1

1163.77

1

16.39884285

3

269543

39657082

10

11

1163.77

1

1163.77

1

16.37855052

3

263359

39631004

10

11

1163.77

1

1163.77

1

16.37654544

3

253885

39418058

10

11

1163.77

1

1163.77

1

16.3601984

3

200618

38605624

10

11

1163.77

1

1163.77

1

16.29782482

3

183675

38345810

10

11

1163.77

1

1163.77

1

16.2778832

3

122764

37377571

10

11

1163.77

1

1163.77

1

16.20354825

3

138208

37617059

129

11

1163.77

1

1163.77

1

16.16296479

3

80901

36711226

10

11

1163.77

1

1163.77

1

16.15239053

3

42141

36257878

10

11

1163.77

1

1163.77

1

16.1175931

3

3515

35814679

10

11

1163.77

1

1163.77

1

16.08356756

3

192365

38483152

133

6

888

2

1776

1

15.93743788

3

20346

35970504

171

6

91.13

40

3645.2

1

15.44114838

3

288565

40022720

133

6

1037.4

1

1037.4

1

14.52515755

3

286222

40012516

133

6

1037.4

1

1037.4

1

14.52437009

3

….

….

 

分类等级4

   序号

流水号

病人科室

医嘱子类

单价

医嘱数量

费用

核算分类

Y(综合评价值)

分类等级

263096

39629128

129

11

1884.3

1

1884.3

1

26.49654735

4

212830

38761051

129

11

1884.3

1

1884.3

1

26.42990324

4

180530

38228382

129

11

1884.3

1

1884.3

1

26.38901344

4

172825

38195417

129

11

1884.3

1

1884.3

1

26.38648422

4

168854

38076991

129

11

1884.3

1

1884.3

1

26.37738822

4

136064

37606917

129

11

1884.3

1

1884.3

1

26.34130719

4

101474

37031092

129

11

1884.3

1

1884.3

1

26.29709787

4

286934

40016500

10

6

1703.36

1

1703.36

1

23.99382637

4

228279

38935407

10

6

1703.36

1

1703.36

1

23.91083542

4

192010

38480050

10

6

1703.36

1

1703.36

1

23.87587449

4

154805

37912544

10

6

1703.36

1

1703.36

1

23.83230631

4

66299

36542288

10

6

1703.36

1

1703.36

1

23.72711079

4

 

附录Ⅳ: 综合评价值与相关系数得分表

分类等级1

综合评价值

相关系数得分

分类等级

0.999784

1.49978408

1

0.999783

1.499782792

1

0.999727

1.499727244

1

0.999726

1.499726368

1

0.999441

1.409441296

1

0.999352

1.499352329

1

0.999308

1.499308124

1

0.999137

1.499136694

1

0.999136

1.499136303

1

0.998933

1.508933016

1

-1.2672E-06

0.499998733

1

-1.5685E-06

0.499998432

1

-2.4E-06

0.499997572

1

-3E-06

0.499996951

1

-3.1E-06

0.499996915

1

-5.6E-06

0.599994421

1

-7.3E-06

0.49999275

1

-9.1E-06

0.499990908

1

-9.1E-06

0.499990908

1

-1.3E-05

0.499987172

1

 

分类等级2

Y(综合评价值)

相关系数得分

分类等级

9.81974116

10.01974116

2

9.750030286

10.25003029

2

9.521272605

10.0212726

2

9.452200577

9.952200577

2

9.349800823

9.849800823

2

9.259486862

9.759486862

2

8.439103326

8.939103326

2

8.14171349

8.64171349

2

8.141499395

8.641499395

2

8.14149907

8.64149907

2

8.141494938

8.641494938

2

8.141489346

8.641489346

2

8.141466924

8.641466924

2

8.141466409

8.641466409

2

8.141461952

8.864146195

2

8.141454036

8.641454036

2

8.141443988

8.641443988

2

8.141441664

8.641441664

2

7.578974891

8.078974891

2

7.57896646

8.07896646

2

 

 

分类等级3

Y(综合评价值)

相关系数得分

分类等级

18.76689752

19.26689752

3

16.40657241

16.90657241

3

16.39884285

16.89884285

3

16.37855052

17.87855052

3

16.37654544

16.87654544

3

16.3601984

16.8601984

3

16.29782482

16.79782482

3

16.2778832

16.7778832

3

16.20354825

17.70354825

3

16.16296479

16.66296479

3

16.15239053

16.65239053

3

16.1175931

16.6175931

3

16.08356756

16.58356756

3

15.93743788

16.43743788

3

15.44114838

15.94114838

3

14.52515755

15.02515755

3

14.52437009

15.02437009

3

14.51744609

15.05174461

3

14.50603677

15.00603677

3

14.49728108

14.99728108

3

 

分类等级4

Y(综合评价值)

相关系数得分

分类等级

26.49654735

21.49654735

4

26.42990324

21.42990324

4

26.38901344

21.38901344

4

26.38648422

20.38648422

4

26.37738822

21.37738822

4

26.34130719

22.34130719

4

26.29709787

21.29709787

4

23.99382637

18.99382637

4

23.91083542

17.91083542

4

23.87587449

18.87587449

4

23.83230631

20.83230631

4

23.72711079

18.72711079

4

 

原文地址:https://www.cnblogs.com/chengxs/p/5923718.html