今天QQ群跟一个大牛谈话很受益啊

果然是是科研人才啊：

都是很技术的话题，我整理了一下，废话给省了（黑体字是我说的，红体字是那位大牛说的）

问个问题啊：有篇博客上说：“调整权重时，SVM是全局最优，ANN是局部最优”怎么理解啊

ANN得到的几乎永远是局部最优 , ANN的optimization是非凸的。除非使用极个别的输入函数，ANN才可能是凸的。 SVM的optimization是凸的，很容易得到全局最优。

全局最优和局部最优对分类有什么影响吗

对于实际性能来说，区别不大。 ,凸的模型很容易受到complexity的限制。

SVM复杂度，它的优势不是处理高纬空间吗 ,通过核函数以内积形式映射到高维空间，不是不怕复杂吗

普通的rbf kernel的SVM是没办法处理高维问题的

囧啊，svm的高斯核不是很擅长搞这玩意吗

高维空间里，SVM一样受curse of dimensionality影响。

不做feature selection，SVM在高维的表现很多时候非常扯淡。

现在先不讨论高深的了，话说libsvm直接可以做多分类吗，我这两天也是刚接触，还没测试过，只要更改数据格式就ok？

嗯。libsvm应该用的是DAG。只要label是多类，libsvm就会自动处理的。

高维小样本数据的话可以试试LIBLINEAR

不过还有一个理论问题，是有些文献说svm能克服ANN过学习的问题

速度更快，性能也不差。 SVM就是通过regularization来实现的。

你看到的\|w\|^2就是防止overfitting的一种方法。但实际上overfitting还是存在的。所以现在大家使用更radical的penalty

就是设置惩罚因子来实现，其实我看就是在支持向量那里设置一个阈值

难道ANN没有类似设置？

嗯，那个penalty就是所谓的克服。 , ANN也可以做类似的设置。

还有就是不太明白的是：svm针对小样本，这里的小样本如何理解

d>>n d是feature数量，n是样本数量。 SVM的primal问题是在d为空间里求解。 dual问题再n维空间里求解。如果n<<d，那么肯定是dual问题更好解了。

dual问题我实在没怎么看懂啊，哎

凸优化里的Lagrangian。你看过Andrew Ng的Machine Learning的视频么？
里面有讲。不过建议把Boyd的Optimization看一遍。Machine Learning和凸优化密不可分啊

另一个问题：我感觉自己的分类问题，数据量也不大（样本最多100，分类数据最多2000），维数也不多（最多30维），选择svm与ann貌似都可以呀

你这个dimension很低。已经不错了。

我是做遥感图像分类的，现在刚接触这块，先了解了下，现在正在想如何选择分类器，不过看文献大家都用svm也做得相当success.维数是比较低的，但我想关键是精度问题，大家分析下，这样的分类问题，选择那个classifier精度会最好呢

你的分类数据都有label么？用全部数据来做cross validation，看看validation error大概是多少。

都用，我处理的是图像分割后的区域，每个区域都用region_ID

这个结果大概就是你能做到的极限了。
没有一个模型是完美的。有他们自己的适用范围。
有专门做noisy label的learning问题
认为label有很多outlier

用全部数据来做cross validation，看看validation error大概是多少。
这个验证对选择分类器有什么影响吗？

每个分类器一个validation error。
基本就是你在现有数据上能做到的极限。这个只是极限。极限性能好，不代表样本数量减少时性能仍然能最好。只是一个参考

我想或许做个分类器融合效果可能更好

简单的把这些强分类器做融合的话意义不大。会增加更多的参数。
一般都要有相应的领域知识，局限于领域内的应用.比如图像的分类器融合，融合不同的信息会更有意义。同样的feature，使用不同的分类器，性能提升非常有限.

“融合不同的信息”这句怎么理解啊

比如图像的不同频率域的feature。举个例子，比如harr小波处理过的图像。
或者gabor滤波使用不同尺度和不同频率得到的图像。

哦，这样啊，另外还有一个热门就是模糊分类器

fuzzy也就是国内还在做吧。我觉得国外已经没人搞这个了。
你做遥感，应用和改进现有模型就行了吧。

另外KNN貌似应用的也比较多

这玩意最容易实现，而且性能也不算差。

貌似是，虽然存储样本费事，但是程序实现容易，呵呵，无需改动了就
样本太大可以做sampling

另一网友：

基本上在数据维度特别大的时候我还是比较喜欢用线性核或者径向核如果使用sigmoid核则svm就变成了一个包含一个隐层的多层感知器只不过隐层节点个数不用咱们自己去定且不会陷入局部最优我觉得这点挺爽
关于软间隔优化有一阶软间隔和二阶软间隔可以用一个通式来表示这样研究时候也比较方便
目前解支持向量机的算法基本分两种求解原问题或者求解其对偶问题当然不同算法适合于不同场景没有最好的只有最适合的
对于对偶问题我想多说一点这时候计算的复杂度不再取决于空间维数而取决于样本数（特别是支持向量个数）因此虽说feature越少越具有代表性越好不过我不知道某些情况下是不是可以弱化特征提取的作用换句话说我觉得svm是最不依赖于特征提取过程的分类算法

　　支持向量机研究工作有待深入的四个方面:

huge training data
high dimensional data
noise
unbalanced training data

第1个问题他们提出的一个解决方法是seperable boundary detection: 找到处于边界的数据以减少数据量,通过聚类等方式找到数据集的结构,将两者混合训练出的模型比传统的SVM 算法得到的模型要快速.

第2个问题的一个解决方法是feature selection: 首先将每个特征按照敏感度(我的第一反应是按方差,但是他提到的是什么我忘了)排序, 取最有效的特征子集; 然后用correlated based方法将特征聚类(Affinity propogation, 2007 science), 得到一个更好的特征集用于训练.

讲第3个问题时可能去接电话了,没注意到.

第4个问题是将数据按照第1个问题的方法找到边界数据,然后再用聚类方法得到一些local training data训练出若干个local SVM, 接着将他们组合起来构成一个SVM. 但是这样的方式在预测时效率较低,通过每个Local svm的输出分段,然后训练出一个SVM来预测,这样可以解决相应的疑问(这里听得不太清楚).

训练样本少，那么，置信范围就很大，真实风险与期望风险之间的误差就比较大，用真实风险来代替期望风险就会产生很大的偏差，也就意味着，训练得到的模型，推广型（泛化能力）很差。

svm主要做分类或者回归的.以分类为例,一般情况下,数据不是线性可分的,因此如果要分类非线性数据,就必须将数据映射为线性可分的空间,但是这会伴随着数据维数的增加,甚至会到无穷的情况.那这样就没法计算了.幸亏svm的特点决定了并不需要考虑数据的维数,它的相关计算只与两个数据的内积有关,当数据映射到高维空间后,需要计算数据的内积,但是又不知道映射函数以及数据的具体维数时.核函数很好的解决了这个矛盾,它使计算高维空间的内积转换为在原来空间数据点的核函数计算.可以这样理解,核函数就是高维空间数据点的内积,但它的计算是原来空间计算的.
这个特点是svm成功的基础,也是svm的核心内容,相当的完美.要真正理解这个概念,需要一些泛函的知识,但是开始的时候你无须知道所有细节,什么mercer条件你都不要管.现在研究的核函数只有那么几种,先用他们再说.

个人使用觉得SVM稳定些
BP每次训练结果都不同，比较难取合适的网络

更重要的是SVM可以解决神经网络过拟合的问题对样本的选取也不会很苛刻