5中常用的相关分析方法

一、折线图分析法和散列图分析法

二、协方差(两个参数)与协方差矩阵(参数大于两个)

三、相关系数法(可以直接用excel求相关系数)

四、一元回归(两个参数)和多元回归(多余两个参数)

五、信息熵及互信息

互信息指的是两个随机变量之间的关联程度,即给定一个随机变量后,另一个随机变量不确定性的削弱程度,因而互信息取值最小为0,意味着给定一个随机变量对确定一另一个随机变量没有关系,最大取值为随机变量的熵,意味着给定一个随机变量,能完全消除另一个随机变量的不确定性
通俗的讲就是:

原来我对X有些不确定(不确定性为H(X)),告诉我Y后我对X不确定性变为H(X|Y), 这个不确定性的减少量就是互信息I(X;Y)=H(X)-H(X|Y)

每种方法各有特点。其中图表方法最为直观,相关系数方法可以看到变量间两两的相关性,回归方程可以对相关关系进行提炼,并生成模型用于预测,互信息可以对文本类特征间的相关关系进行度量。

原文地址:https://www.cnblogs.com/xleer/p/5634338.html