如何运营一家数据标注公司(效率提升篇)

在上一章中我们提到了报价时需要参考的若干因素。这一章,我们着重强调和了解一下在标注团队运营时有哪些因素会直接影响到项目总体效率......

下面我们就针对在运营中最影响总体效率的几个方面展开来说:

    1. 原始数据的分发和已完成数据的汇总 这里把分发数据和汇总数据放在一起来说,因为在影响效率的原因方面两个步骤是一致的,主要有以下三点:

  • 工时消耗 不论是分发还是汇总,都会涉及到需要专人进行处理。同时,数据的传输也会花费大量的时间。这些因素在实际运营当中会消耗大量的工时,碰到数据量较大时,分发和汇总图片的时间甚至可以达到标注总时长的30%以上。
  • 硬盘消耗 随着数据量的不断积累,对于每个标注人员计算机硬盘的消耗量也会逐渐增大,对于分发数据人员的计算机要求更高。
  • 错误频发 人工进行分发和汇总数据时,多多少少都会出现类似图片重复发放,切分图片多切、少切等问题。这种问题一旦发生,就会浪费大量的时间进行数据的校对,从而影响整体进度。

    2. 完成数据后的统计工作 目前市场上所有的数据标注公司都是以件(矩形框、多边形、点等)为单位进行报价,这就导致必须在完成标注数据以后对于完成的总量进行一个统计。同时,为了记录员工绩效的高低,也需要对员工每日完成的数据量进行一个分类统计。在这里影响效率的原因主要有下面两点:

  • 工时消耗 不论是统计完成数量,还是统计人员绩效,都必须付出大量的时间。同时,越细化的统计内容,花费的时间越多。
  • 错误频发 人工统计完成数量时,也经常会出现譬如遗漏、虚增等等错误情况,完全杜绝错误发生是非常困难的。

    3.工作协同性 目前市场上能部署到以单台电脑为单位的标注软件都没有协同性可言。首先要做到协同性需要管理模块,需要一个整合前端标注和后端统计功能的平台,只有实现平台层面的操作,才能解决协同性问题。影响效率的原因主要有以下两点:

  • 工时消耗 大多数数据需求公司都需要数据标注的一个时效性,因为时间对于公司来说就是竞争力,产品小样或者产品落地时间越短,行业的竞争力也就越强。这就导致数据标注公司需要在标注完成的同时,完成质检。如果没有协同能力,大概率出现的情况就是标注人员先行标注,待数据部分或者全部完成,质检人员再进行质检。这样的做法,对于公司运营来说本来就是不得已而为之,因为标注人员和质检人员要做到同工同酬本来就不合理,为了使质检人员在标注员标注期间有事可做,又需要有专人进行协调。在这种架构里,体量越大,耗费的人力越多,效率越低。
  • 完善规则 大多数数据标注公司应该都遇到过这样的窘境:甲方公司提供的数据标注规则只是针对小批量数据集的,当真正的开展大批量的数据标注工作时,在实际标注中会发现各种各样奇奇怪怪的问题。而我们为了不影响项目的流畅进度,大概率会选择暂缓标注问题图片,或者以天为单位总结问题,统一和甲方交涉沟通。不论如何选择,都会遇到非常多的问题,比如大规模标注时出现规则文档中未涉及的问题,记录和汇总会浪费大量时间。同时,如果对标注规则中未提及的问题在标注时标注人员自我理解消化,很有可能并不符合甲方预期,最后会导致大面积返工的情况出现。

         以上就是在数据标注公司运营中最长出现的3类问题。这3类问题如果处理不好,得到的就会是非常低效的工作模式。打个比方,都是同样的标注员,一个标注员在低效的运营模式下工作,也许他一天可以完成4000个矩形标注框,但是因为规则或者整理方面出现了问题,他有一半多的框都是作废了。这不仅对标注员个人的身心是个打击,对于标注公司来说既定计划完成不了,换来的就是无休止的加班。长期加班人困体乏,对于标注公司来说,是不可能持续运营下去的。

         换一种方式,如果一个标注公司有高效的运营方式。制定计划周密又合理,不仅可以轻松的完成一系列的服务,在大大降低管理成本的同时,标注公司在行业中就会更有竞争力。如果大家想知道如何解决上述低效的问题,请大家持续关注觉醒向量BLOG或者觉醒向量官网丨www.awkvector.com,我们会在下一章更新时给大家详细介绍更高效管理数据标注团队和数据标注公司的方法。

©著作权归作者所有:来自觉醒向量数据标注的原创作品,如需转载,请注明出处,否则将追究法律责任。

原文地址:https://www.cnblogs.com/AWK-vector/p/11381658.html