机器学习笔记

1.在其他条件不变的前提下，以下哪种做法容易引起机器学习中的过拟合问题（）

A. 增加训练集量
B. 减少神经网络隐藏层节点数
C. 删除稀疏的特征 S

D. SVM算法中使用高斯核/RBF核代替线性核

答案为：D

分析：

避免过拟合的方法：正则化方法，强制减少参数，增大训练数据集。

对于B，过拟合是太多的参数引起的。神经网络减少隐藏层节点，就是在减少参数，只会将训练误差变高，不会导致过拟合。
对于D，svm高斯核函数比线性核函数模型更复杂，容易过拟合
径向基(RBF)核函数/高斯核函数的说明

这个核函数可以将原始空间映射到无穷维空间。对于参数，如果选的很大，高次特征上的权重实际上衰减得非常快，实际上（数值上近似一下）相当于一个低维的子空间；反过来，如果选得很小，则可以将任意的数据映射为线性可分——当然，这并不一定是好事，因为随之而来的可能是非常严重的过拟合问题。不过，总的来说，通过调整参数，高斯核实际上具有相当高的灵活性，也是使用最广泛的核函数之一。
---------------------
原文：https://blog.csdn.net/w5688414/article/details/79390490

2.一般，k-NN最近邻方法在( )的情况下效果较好

a.样本较多但典型性不好

b.样本较少但典型性好

c.样本呈团状分布

d.样本呈链状分布

答案：B

解析：样本呈团状颇有迷惑性，这里应该指的是整个样本都是呈团状分布，这样kNN就发挥不出其求近邻的优势了，整体样本应该具有典型性好，样本较少，比较适宜。
---------------------
原文：https://blog.csdn.net/mingtian715/article/details/78020611

关于KNN（K近邻算法）

KNN是通过测量不同特征值之间的距离进行分类。它的的思路是：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。K通常是不大于20的整数。KNN算法中，所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。

参考：https://www.cnblogs.com/sxron/p/5451923.html

5 下面哪些是基于核的机器学习算法?(BCD)

A.Expectation Maximization

B.Radial Basis Function

C.Linear Discrimimate Analysis

D.Support Vector Machine

分析：B.（RBF）径向基函数在支持向量机中也被用做核函数；

C.人们发展出一系列基于核函数的学习方法，统称为“核方法”。最常见的，是通过“核化”（即引入核函数）来将线性学习器拓展为非线性学习器。比如从LDA到KLDA（kernellized linear discriminant analysis）（见西瓜书svm章节）

D.svm中广泛使用核函数

参数方法的优缺点：（见阿培丁《机器学习导论》非参数方法introduction部分）

优点：

　　它把估计一个概率密度函数、判别或回归函数的问题简化为去估计少量参数的值。

缺点：

我们所假设的模型并不总是能较好的描述样本集分布，这样的话就会导致比较大错误。