数据挖掘|统计的艺术

生物统计预实验设计-主要概念和内容

统计(statistics)一词来源于State政府,因为最早通常是政府利用统计学来统计数据。

我们在使用统计学工具时,需要从科学和艺术的角度思考它和研究内容的契合度。

统计学不仅仅是科学还是艺术,它是科学这一点毋庸置疑,它的艺术体现在数据和人的不确定上,数据永远都是含有随机误差,因为永远不可能得到总体,科学实验永远用样本估计总体;在解释阶段,人对于统计工具的使用有判断性,不是死套公式(eg,何为小样本,大小样本的界定并不唯一,因为若规定小样本是30,那么31个就是大样本吗?这里需要人来判断是否为小样本,据此判断采取何种统计方法。t分布的提出统一了大小样本的不同)。

它的主要功能是描述和推断。在统计的几个阶段中,解释阶段和收集阶段正如一个反馈系统,解释阶段得到的结论指引下一个收集阶段的设计,而收集阶段的数据直接影响到解释阶段的解释。两个这两个都是由人参与的。

数据挖掘的英语是data mining简单来说就是将数据是缩小化,缩小为一个个的数值,这几个数值能够反映整个样本的数据特征,而图的出现帮助我们找到原始数值背后的自然规律。

在推断阶段,需要明确参数是常量,而统计量是变量,在统计推测估计参数时,我们常常认为聚集大多数统计量的区域可以反映总体的聚集在此处,这就是我们为什么会十分关注聚集状态的描述了。

在描述阶段的基本个体是频率,它是真实发生的次数。在推断阶段的基本个体是概率,它是发生的可能性。其中需要强调的是:连续变量是充满整个空间的,它的密度曲线的y值是密度,密度曲线围住的面积是概率:

 

正态分布是指一般情况+常见,这些条件在使用公式之前需要注意。

 

原文地址:https://www.cnblogs.com/yuanjingnan/p/11478080.html