R语言数据分析听课笔记第一部分问道

R语言数据分析听课笔记第一部分问道

第一部分就是方法论，包括前三章。
第二部分就是工具，R语言，包括5 6 7 8 9章。
第三部分就是具体的算法模型学习，包括10-14章。

第一章问道

艾新波北京邮电大学副教授
数据科学最令人着迷的地方：一旦进行量化，看似风马牛不相及的事物或属性，经过数学运算，居然可以画上等号，刻画各种各样的规律。

第二章所谓学习，归类而已

课程主题，数据分析是主体，R语言是工具。
数据挖掘，和机器学习，所涉及的内容基本上是一样的。就算法模型而言，这两者不需要区分。
数据挖掘，就是数据管理技术和数据分析技术。数据分析，其实就是机器学习。
所以本课程中，数据挖掘数据分析机器学习，这三个概念不做区分了。
数据分析约等于，认识数据+关联+分类+聚类
机器学习的核心就是归类。因为机器学习，有监督学习--分类为代表，无监督学习--聚类为代表。因为分类，和聚类，都可以算作一种归类。
机器学习，所能发现的规律/模型，本质上就是某种关系结构。
有监督学习：映射关系
无监督学习：距离关系
机器学习的一般过程就是，“实事求是”，事就是数据，求就是算法，是就是模型。
求模型的过程，与数学化归的思想如出一辙，化未知f为已知h，用已知逼近未知。
所谓的机器学习，就是通过算法从模型集中选出一个最贴近观察记录的模型，用来表示我们想要的关系结构，要刻画贴近的程度，需要一个量化标准，我们称之为策略。所以，机器学习的三要素就是，算法、模型、策略。
何为建模？模型真的是，一砖一瓦建立的吗？其实不是，其实更多是一个选模的过程。模型不在于构建，而在于选择。模型的选择，其实是一个优化的问题。
建模好比是，量体裁衣。不同类型的模型集，每年都层出不穷（类似与不同类型的衣服款式层出不穷），款式（模型类）选定之后，显然要做的事情就是确定其参数（确定好参数，便拟合好了模型）。
科学推理的方式，就是两种，归纳（从特殊到一般）和演绎（从一般到特殊）。
所以机器学习的过程，是一个归纳的过程。归纳法，由于没有（或者无法）穷举考察对象的全体，因此它的结论带有猜想的性质，属于似真推理，或然性推理。将获得模型进行应用的时候，可以视为一种演绎的过程。
格言联璧话学习

数学是宇宙的语言，这个世界真正的逻辑是概率计算。
相关并不意味着因果。
所有的模型都是错的，但是有些模型是有用的。
没有明确的证据表明，一个模型会优于另外一个模型。
成功的机器学习的应用，不是因为拥有最好的模型，而是拥有最多的数据。
特征选不好，参数调到老。
数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限。
如何赢得机器学习的比赛，那就是把别人的模型拿过来然后集成在一起。
数据科学家就是一个比计算机科学家懂更多统计，比统计学家懂更多统计的人。
关键在于问题而非模型本身，数据科学家的基本素养，首先是业务敏感，其次算法老道，第三编程熟悉。

第三章源于数学，归于工程

数学，是研究模式的科学。
机器学习的两大视角：概率与几何
通过一个监督学习的例子，可以发现，通过概率与几何的视角，就可以将诸多学习算法统一成一条线。
理论是灰色的，而工程之树常青。唯有实践才是完整的，一个最小的工程，都有书本上的理论所覆盖不到的地方。要想找对的感觉，最好的方式就是在具体的情境中实践。多一些工程思维，由理性认识再次上升到感性认识。