如何解决大量样本标注问题

TSVM 常见的解决未标注样本的方法有EM (Expectation Maximization) 算法 ,协同训练法,Transductive SVM 方法及最大熵判别法等.

原文链接：http://blog.sina.com.cn/s/blog_4c98b9600100094l.html

下面首先介绍一下TSVM，并以入侵检测为例介绍。在传统的ISVM中，训练SVM学习机需要大量经过标记的样本，而正确标记的样本是很难大量获取的。如果能把未标记样本的特征加入到入侵检测算法的设计中去，就可以弥补归纳式SVM带来的缺陷，获得更好的检测效果。直推式SVM 正是基于这种思想的SVM算法。

        TSVM是一种不依赖于推广性思想的经验推理。由于其是从特殊到特殊的推理，难以直接进行客观验证。因此，直到现在才开始得到人们研究的重视，但它已经在一些领域中(例如生物基因选择，数字识别)取得了初步结果，甚至表现出了比传统ISVM更好的性能。直推式SVM 的决策分类函数是建立在训练集Strain和测试集Stest 的基础上。
      由于径向基函数(Radial Basis Function,RBF)在高维空间分类问题中的优越表现，我们选取RBF作为SVM分类器的核函数。在TSVM学习期间，测试样本就对其施加了影响。因此，TSVM学习的结果中就包含了测试样本的数据特征。经过学习后，TSVM就会产生一个分类决策函数，即最优分类超平面。测试样本经过TSVM分类器处理后，再由入侵检测决策系统根据分类结果来判断是否有攻击行为的发生。为了尽可能将正常数据和攻击数据正确地区分，以提高入侵检测的检测率，TSVM试图寻找最优分类超平面。而TSVM的有效学习是非常重要的，其具体的学习过程如下：
    (1)TSVM根据指定的惩罚因子C和C*，利用训练数据中包含的正负标签的网络数据进行归纳式学习，得到一个比较原始的样本分类器。随后，TSVM假定训练集中无标记网络数据样本中正负样本的比例为1：1，并指定一个训练集中无标签样本的临时惩罚因子C*temp。
       (2)TSVM用得到的样本分类器对训练集中的无标签样本进行重新分类，根据分类器对无标签网络数据记录的判别结果，对无标签数据作出正负分类判决，并将判决值较大的一半样本标记为正标签，另外一半标记为负样本。
     (3)用得到的经过重新标记的训练集数据对TSVM学习机进行重新训练，得到新的分类器。然后，按一定的规则交换一对标签值不同的训练样本的标签符号，即把起初标记为正样本的未标记样本中标记为负样本，起初标记为负样本的标记为正样本，计算式(2)的值，使得问题(2)的值获得最大下降。反复执行训练样本标签的变换，直到找不出满足交换条件的样本为止。
  (4)均匀地增加未标记样本的惩罚因子C*temp的值，并重新执行步骤(3)，直到C*temp≥C 时，TSVM 的学习结束。

       当TSVM终止学习后，就可以用学习得到的分类器对测试样本进行分类判别。入侵检测决策系统根据TSVM分类器分类的结果作出是否有入侵行为发生的判断。TSVM在学习的过程中，结合了大量的未标记网络数据的信息，并反复调整未标记数据对TSVM学习机的影响，以追求对无标签样本的最小分类误差。因此，基于TSVM的入侵检测系统比基于ISVM的检测系统需要更长的学习时间，但是由于结合了测试样本的影响，在对测试样本分类的准确度上也会得到一定程度的提高。