阅读笔记 Vox Populi: Collecting High-Quality Labels from a Crowd

作者 Ofer Dekel H-27 有多篇关于 Crowdsourcing 中 labeler 和 Active leanring 的文章。

这篇文章主要是考虑:训练一个分类器,从而删去一部分低质量的工人。论文中假设每个example 只接受一个样例,每个工人只标记较少数量的 example 。

其实际的算法其实还是通过通过训练好的分类器来判定工人所给的标记是否正确,从而将那些高错误率的工人删去(该工人提供的数据全部弃用),起到 clean data 的作用。

个人认为论文的贡献主要在于: 从理论上分析了通过 由分类器给出的伪标记作为 ground truth 来判定工人的精度,的确可以找出那些低质量的工人。不同于 Learn from crowd 文章,其最终目的不是为了得到一个高精度的分类器,而是删去低质量的工人,从大量的噪音数据中得到 cleaned data,但是否数据的分布发生了改变,还能否学到原始分布 D 上的分类器,论文没有考虑。

论文中的理论分析假定了工人数量和样例数量趋于无穷,在这种情形下,那些被差的工人标记的 x 被丢弃,不会对分类器 f 的学习造成很大影响。

该 paper 用到了 一个 smart twist( small modification): splitting the data in two and using each half to clean the other。这是将 example set $S$ 划分为 $S_1$ 和 $S_2$,用工人在 $S_1$ 上的表现来决定工人在 $S_2$ 上的label 是否保留。

原文地址:https://www.cnblogs.com/Gelthin2017/p/10405344.html