传统统计分析与数据挖掘

  在接触数据挖掘之前,一直比较疑惑的事情是,现在这么流行神经网络、聚类等等算法,那我们以前大学课程学习的线性回归、方差分析这些传统的统计学有什么作用呢。最近听一个老师讲课,才明白,其实是不用领域、不同情况,进行数据分析的工具不同而已。我们获取的数据通常分为三类,第一类是实验数据,这类数据的数据量大小往往在10-50条记录左右,在实验的控制下属于高质量数据,此时只适用于方差分析、回归分析等十分成熟的模型。第二类数据时问卷调查数据,这类数据的数量大小在60-3000条记录左右,数据质量中等,此时适用于传统统计分析的很多模型,包括生存分析、回归分析等等,并且经常考虑异方差问题。而第三类数据也就是现在我们如今在互联网时代常常遇到的数据库数据,数据量的大小在100万到正无穷,数据的质量较低,适用于数据挖掘的模型,包括神经网络、聚类、决策树等等。如果用传统的统计分析方法去做大型的数据挖掘,可能跑上十几天都不会有结果,此时会衍生出P值会出现不稳定的情况,一般传统的市场分析,样本量在变量的5-20倍左右,P值最准确。但是并不是说样本量大不好哦,而是此时P值参考作用会出现问题。

原文地址:https://www.cnblogs.com/fionacai/p/5730849.html