final 1

1. machine learning分类

supervised learning：output class is given (regression + classification)

unsupervised learning

2. regression预测的结果是一个连续的值，即对x y进行拟合

linear regression：假设拟合后的结果是一条直线 y = bx + c

θ_n对应x_n前面的系数

y = θ₀ + θ₁x₁ + θ₂x₂ + ... + θ_nx_n = h(x)

首先定义一个误差函数MSE(mean squared error)：

括号内内容为实际值-预测值，故而可理解为误差的平均表现，所以越小越好

3. 求MSE最小的情况——gradient descent

先不考虑所有m个情况，只对其中一个情况进行求导

最后一步中符号改变是因为所求梯度是向下梯度的反方向

4. Batch Gradient Descent指对一组所有梯度都求出来之后共同更新

Stochastic Gradient Descent指每一个点做完就进行一次更新

5. 除了gradient descent，linear regression还可以用closed-form solution解决

不需要迭代

var(x)：方差

6. covariance

xn，yn分别于x, y的均值相比，若同大于或者同小于，则covariance为正，否则为负

反应x y之间是否存在正相关/负相关（正相关为+值，负相关为-值，没有什么相关性趋近于0）

correlation可理解为将范围为负无穷大到正无穷大的值压缩到-1到1的区间内

7. 用closed function得到的预测值与真实值差值之和为0

8. linear regression for curve shapes

使x2 = x1^2, x3 = x1^3。。。

故而保持线性方程的形式，但是这种赋值加的过少造成underfitting，过多造成overfitting

regularization：如何达到balanced，使J(θ)整体较小，其中前半部分表示误差，后半部分表示方程复杂程度，λ用于权衡后者的重要程度

9. 同样的我们可以得到新的closed-form solution，也称之为ridge regression；若把式子中θi^2变为|θi|, 称该变形式为lasso

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

10. classification

最简单的一个模型：linear classification

11. 首先找到两种类别的中心点（对于每个类别而言，分别求出横纵坐标的平均值），即p,n

p, n即为中心点也可以代表向量，用两者相减得到的w即为classification所求分割点的法线

故而已知分割线的法向量，以及分割线必定经过两中心点连线的中点，可求

12. 其他一些分类形式

a) generative algorithm

学习不同y下x分布的概率，可以产生新的数据

b) discriminative algorithm

对给出x，得到它属于y的概率（如：linear classification）

13. train data: 训练用的

validation data: 测试训练效果

test data: unseen data: 最后的测试，试验结束之后用的

14. batch learning：所有数据一开始就都给了

online learning：模型可以接纳新的数据

parametric：模型有固定数量的parameter

non-parametric：参数数量不固定的模型

15. cross-validation/out-of-sample testing

a) holdout method：直接中间分开

b) Leave-One-Out Cross validation(LOOCV)

分别让每一个元素作为test case，其他所有作为training case

选取均值作为评估模型的依据

c) K-fold Cross Validation

将数据分成K份，每次取出一份作为test，训练剩下的数据

16. generalization

泛化能力，即训练结果可推广到别的数据上

deduction：将一个笼统的理念应用在一小部分数据上

induction：在部分数据上观测到一个结果，推广到通用的范围

17. data types

a) numerical

b) categorical: 一般情况下，categorical也会被转化为numerical形式

18. Normalization

训练前，先将数据压缩到同一个范围上去

19. 对classification模型的评估

precision为预测为positive里，预测正确的概率；recall为实际为positive里，预测正确的概率

AUC-ROC curve是0到1之间的，越接近于1越好

20. 对regression模型的评估

RMSE，MAE均为越小越好，R-squared及其升级版越大越好

21. missing value

1）删掉有missing value的

很准确，但是大量数据丢失

2）用中值/中位数代替缺失值

数据量有限时比直接删除好，但是增加了variance与bias

如两条数据同时在某一位置缺失了一个值，若在其中都添加了中位数，可能增加了两条数据的相似性

3）将缺失的数据单独分到一类

跟（2）比起来没有添加过多variance

4）预测missing value

缺点是导致预测出来的值与用来预测它的值之间有较强的关联性

5）用支持missing value的算法

不用考虑相关性，但这种算法通常很耗时

22. nearest neighbor

将所有数据存储在一个数据空间里，距离很近的点之间有相似性

距离的计算如下

特殊情况还有，无穷大norm——Chebyshev distance:

0 norm即计算有几个维度里x y是不相同的：

0 norm不完全属于P norm

如果x y是binary string，即为Hamming distance，计算将x转变成y需要改变几个bite (如0101--1111，hd=2）

23. distance需要满足distance metric

自己与自己之间距离为0

所有不同点之间距离大于0

距离是（symmetric）对称的，即xy，yx之间距离相同

满足三角不等式，两点之间直线最短（p<1时不满足该triangle inequality）

#若x不等于y时，x与y的距离可以是0，则为pseudo-metric

24. Nearest Centroid Classifier

只保存中心点，比较新的点与哪个中心点更近即可完成classification

简单快速，但是不准确

25. Nearest Neighbor

所有点都保留，找到新的点最近的1或几个点

若是nearest neighbor则只选择最近的点，所求点与之相同；K-Nearest neighbor则选取最近的K个点，classification的情况是对K个点进行统计，属于占比最多的class，regression则求邻居点的平均值

比24精确，但是很慢，要存储所有点，时间复杂度为O(n)

curse of dimensionality: 基于距离的方法，当x维度变大时，效果会变差。因为空间上距离的概念会越来越模糊

26. distance-weighted KNN

离所求点越近越重要，增加weight——距离平方的倒数

27. 对KNN的evaluation通常用到LOOCV，单独对每一个点进行训练求accuracy，然后求平均值

K=1时，training set error = 0，但是容易overfitting; K越大模型越稳定