斯坦福【概率与统计】课程笔记（〇）：前言

这个系列的随笔，起源于工作中遇到的问题：拿到一份试验数据后，该如何分析其内容并得到有价值的结论？

一般说来，某个产品在上线之前，都会在小范围内做实验，看看用户对产品新功能/新样式的反映如何，实验的结论会产出很多体现用户反映的各种维度、各种指标的数据，而且量级都比较大（可能几万个甚至十几万个值）。那么问题来了：给你这样一份数据，你能从中挖掘出什么有用的信息，来说明这个实验的结果是好是坏？好在哪里、坏在哪里？如果是坏的，那么如何改进？

我发现项目组中的很多博士同学尤其是数学博士，对待这种问题有一套比较成熟的方法，比如他们会画出各种图表来证明数据是否对称、有偏、某两个特征的相关性、某个特征的权重等。

但我一直对这类问题没有熟练掌握解决方法，究其原因，主要还是不懂得如何统计分析，大学学过的《概率论与数理统计》那一套基本还给老师了——即便还记得一些，也和当前遇到的问题对不上号，不懂得怎么使用。

当然，在从前使用统计机器学习模型的时候，特征都是自己选取的，也会用到一些特征度量方法，但仅限于简单的看看特征分布（哪个值出现的多、哪个值和结果相关、值的范围是不是归一化的等等），还是没有掌握一个整体的方法论。

偶然在一个公众号下看到了这个斯坦福系列课程，感觉应该会对自己上面的困惑有帮助，所以决定抽时间系统地学习、总结一下。

安利课程链接：https://online.stanford.edu/courses/gse-yprobstat-probability-and-statistics

希望最终能达到这个系列学习的目的。2个月之后见