当今社会人工智能领域发达发展,各领域都在追求智能化,耳熟能详的有智能驾驶、智能家居、智能语音、智能推举等。
人工智能是通过机器学习,大量学习已知样本,有了预测能力之后再预测未知样本,以达到智能化的效果,机器学习可分为监督学习和无监督学习,无监督学习的效果是不可控的,常常被用来做探索性的实验。

人工智能的人工部分-数据标注(上)_样本_因子 AI快讯

在实际运用中,常日是有监督学习,有监督学习就须要做数据标注,以是智能的条件是人工,由于智能结果的输出是多次人工样本的输入,可以说人工的数据标注是智能的条件与灵魂,没有人工就没有智能,有多少人工就有多少智能。

一、数据标注的分类

数据标注从难易程度方面可划分为知识性标注与专业性标注。
例如,舆图识别领域的标注多为知识性标注,标注道路、路牌、舆图等数据,语音识别标注也多为知识性标注。
做该类型标注事情难点在于须要大量标注演习样本,由于运用处景多样且繁芜,对标注员无专业技能哀求,紧张是负责卖力,任务完成效率快、质量高的即为好的标注员。

医疗诊断领域标注多为专业性标注,由于病种、症状的分类与标注须要有医疗专业知识的人才能做,招聘领域标注也属于专业性标注,由于标注员须要熟知招聘业务、各岗位所需的知识技能,还需理解HR招人时的关注点,才能判断简历是否符合职位的招聘哀求。
该类型的标注事情须要有招聘领域专业知识的标注员,或者称为标注专家,标注事情的难点比较多,例如选拨培养得当的标注员、标注规则的界定、标注质量的掌握等多方面。

数据标注从标瞩目的方面可划分为评估型标注与样本型标注。

评估型标注一样平常是为了评估模型的准确率,创造一些Badcase样例,然后优化算法模型,该类型标注事情为了节约标注资源可掌握标注数量,一样平常情形下标注千量级的数据,样本具有统计意义即可,标注完成后须要统计精确率,以及缺点样例,该类型标注的重点是缺点样例的缘故原由总结,剖析每个Badcase涌现的缘故原由,并将缘故原由归纳为不同的分类,有了缘故原由剖析方便算法同学分类型分批次的优化模型。

样本型标注即为模型供应前期的演习样本,作为机器学习的输入,该类型标注事情须要标注大量数据,一样平常情形下须要标注万量级的数据。
为了样本的均衡性,标注样本多是随机抽取的,这样做的优点是可在一定程度上避免样本偏差,但缺陷是要标注大量数据。
如果是文本型样本,有时可借助算法抽取一些高频、高质量样本进行标注,这样可一定程度上减少标注事情量,但可能存在样本偏差。
总之样本型标注是个苦力活,业界有句话这么说的:如果你和一个人有仇,那么劝他去干标注吧。

数据标注从标注工具方面可划分为文本标注、图像标注、措辞标注、视频标注,从标注办法方面可划分为分类标注、标框标注、描点标注,这些标注分类基本都属于标注形式的差异,没有较强的专业度,以是不做较多讲述了。

二、数据标注规则的制订

知识性标注的规则比较大略,标注一部分样本即可总结出较通用的规则,但专业性标注的规则比较繁芜,制订专业的标注规则须要遵照以下三原则:多维剖析与综合剖析相结合,因子权重影响成分场景化,问题类型标签化、构造化。
以下是招聘领域简历与职位匹配度标注规则的辅导思想,详细细节规则会在《数据标注(下)》中阐述。
该标注规则比较符合标注规则制订的三原则。

第一,多维剖析与综合剖析相结合。

简历与职位的匹配度影响成分肯定是多维的,不能只参考事情经历或专业哀求一个因子,或者某几个因子,要多维剖析,终极再给出综合评分结果。
当然简历与职位的匹配标注也不可能一上来就能给出综合的评分,不能纯感性的见告标注员:你以为是简历与职位非常匹配就给分,不匹配就不给分,这在逻辑上也不合理。
以是要先给单一因子打分,然后参考每个因子的评分结果,终极再进行综合剖析给出评分结果。

第二,因子权重影响成分场景化。

前面有提到简历与职位匹配度评估须要给每个因子打分,那每个因子打分结束后怎么给出综合评分呢,给每个由于授予权重吗?然后按权重打算总分?答案是否定的,我们要结合详细场景把所有因子进行归类剖析,比如设定一些主要因子,如果主要因子不匹配可能就直接不给分,比如事情经历代表的是一个人的胜任力,如果该候选人不具备该岗位的胜任力,总分肯定是0分。
还有一些因子虽然不是很主要,但会影响评分,有些因子时而主要时而不主要,比如年事,HR想要1-3年履历的行政专员,候选人40岁,该情形肯定会影响终极评分且很有可能总分是0分。
以是把所有影响因子结合场景进行归类剖析是十分必要的。

第三,问题类型标签化、构造化。

标注结果一样平常情形下会以分数的形式展示,ABCD,或者0123,然后一组数据没有得到满分是由于什么呢?哪里不匹配呢?以是前期制订标注规则时一定要把缘故原由剖析考虑进去,列出所有不匹配的缘故原由,形成构造化的缘故原由标签,有利于终极剖析Badcase的分类与占比,然后算法或者策略团队在优化时可以优先办理占比高或影响恶劣的case。

数据标注是一项看似大略实际却十分繁芜的事情,涉及标注分类、标注规则制订、标注缘故原由剖析、标注系统搭建、标注团队管理等,尤其涉及到专业领域的标注则更困难,本篇紧张先容了标注分类、标注规则制订,细节的标注规则以及标注系统的搭建,标注团队管理会在后续更新,希望大家持续关注,感谢阅读!

本文由 @艳杰 原创发布于大家都是产品经理,未经作者容许,禁止转载。

题图来自Unsplash,基于CC0协议。