“每当有人问起我的职业,我回答是数据标注师的时候,对方的脸上总是写满了问号。
”李宇龙说。

数据标注:给人工智能“当师长教师”_数据_家当 云服务

李宇龙在百度(山西)人工智能根本数据家当基地(简称“百度基地”)从事数据标注事情已经5年了。
他说,自己和许多同事目前最大的心愿便是,希望有一天算夜家提起数据标注师就像提起西席、年夜夫一样熟习,期待有越来越多的人理解这个行业。

省工信厅不久前印发的《山西省“十四五”大数据发展运用方案》中明确提出:我省将加快发展数据资源共享、人工智能算法模型研发、演习测试验证、产品做事运用等数据标注做事链条,推动“机器+人工”标注、机器智能标注等能力升级,打造完全的数据标注做事体系。
李宇龙的心愿,有望在短期内实现。

数据标注,不仅仅是“标注”

什么是数据标注?大略来说,便是通过对数据贴标签、做暗号、标颜色或划重点的办法,标注出个中目标数据的不同点、相似点或种别,以此达到让机器学习的功能。
“数据标注是传统制造升级为智能制造、信息打算升级为人工智能的必要环节,其质量直接决定着机器智能化的程度,是它们让机器成为‘天才’。
”省工信厅大数据办干系人士的阐明很专业。

鲜为人知的是,人工智能是须要被人为教导演习而成。
人工智能所须要的教导,背后是经由大量的学习演习而成。
机器并不能理解原始数据,这些原始数据须要人为的“标签化”,通过标注授予这些数据能够被机器所识别的特性,才可以被用于演习。
正是依据这些大量而有效的数据总结规律,机器和人工智能才能终极形本钱身的事情模式,变得越来越“聪明”。

正因如此,人工智能行业有句话:有多少智能,背后就有多少人工。
2020年2月,“人工智能演习师”正式成为新职业并纳入国家职业分类目录。
他们的事情是教会AI认识数据,有了足够多、足够好的数据,AI才能学会像人一样去感知、思考和决策,更好地为人类做事。

李宇龙虽然从未见过自动驾驶汽车,但他最近正在做的事情却与自动驾驶技能的AI算法息息相关。
“你看,把汽车框起来,都打成白色的点,就代表这是一个障碍物。
”随着李宇龙鼠标的快速滑动,屏幕上的点云图不断翻转,一个个针尖大的数据点被标注在图中不同物体上——蓝色是路面、绿色是绿植、赤色是路沿、白色是障碍物。
事实上,自动驾驶汽车眼中的天下便是一幅幅不断变幻的点云图。
数据标注师要做的便是对照摄像头拍摄的照片,授予这些点云图以准确的含义。

采访中理解到,现在数据标注的内容已经从图片拓展到语音,数据集中除了自动驾驶,还有医疗CT、人脸等,语音数据除了有普通话、遍地所言外还有外语,这些数据集涵盖的范围越来越广,使得行业对数据标注师的哀求也越来越高。

市场需求量将呈井喷式增长

众所周知,数据做事领域与人工智能的发展息息相关。
通过每天数千次的重复动作,数据标注这项事情便和无人驾驶、人脸支付、智能家居、聪慧医疗等前沿科技产生了紧密的联系。

理解到,目前,数据标注的技能门槛并不高,只要能闇练操作电脑,经由一定的培训就能上岗,招工人群较为广泛。
以百度基地为例,现在这里有2300多名数据标注师,今后5年估量将为5万名数据标注师供应就业岗位。

“这是个高速发展的行业,5年培养5万人并不算多,我们的线上众包注册用户将近2000万人,目前每个月在线上为我们供应做事的将近5万人。
如果按照行业增长速率来看的话,培养5万人还不一定够。
”百度基地卖力人先容。

对付如何保障数据安全,这位卖力人表示:“这也是百度要专门培植这个基地的缘故原由。
在基地,每个房间都有24小时***监控,上岗之提高行人脸打卡、数据加密,作业期间若涉及数据敏感项目,会哀求数据标注

师们将手机放在固定的地方,而线上的数据标注师则是处理一些敏感性不高的数据。

理解到,目前山西转型综合改革示范区已建玉成国有名的单体数据标注基地,入驻企业35家,标注职员2000余人,产值规模和从业职员全国领先。

据艾瑞统计预测,2020年我国AI根本数据做事市场规模为37亿元,到2025年相应规模可达107亿元,整体增速呈现稳步提升的趋势,图像、语音类内容也连续在向新兴场景开拓,数据标注需求量将呈井喷式增长。

上风+政策助实行业“起飞”

站在互联网风口之上,我省已牢牢把握住了“大数据”“云平台”等发展机遇。
数据标注家当则是我省进一步利用已有制造业根本和大数据资源,发展智能制造和人工智能运用的关键一步,是推动我省经济高质量转型发展的新机遇。
事实上,我省近年来持续聚焦、主动作为,正在稳步推进我省数据标注家当培植发展。

一个事实是,我省发展数据标注家当上风明显:在人力资源上风方面,具有相对充足的人力资源,同时我省大数据学院专业培养体系完备,人才本色较高;在资源上风方面,根据2018年8月国家发改委出台的《关于支持山西省与京津冀地区加强协作实现联动发展的见地》,京津冀作为全国电子信息家当发展高地,将为山西发展数据标注家当乃至全体人工智能家当带来人才、资金、技能等全方位的外部优质资源;在家当根本上风方面,我省已与人工智能龙头企业百度公司深入互助,数据标注家当集聚地培植项目顺利展开,以山西同方知网为代表确当地数据标注企业也已初具规模。

省委、省政府为了支持数据标注家当的发展,近年来陆续发布了《山西省数据标注家当发展方案(2019-2025年)》《山西省加快数据标注家当发展的履行见地》《山西人工智能根本数据家当专项资金管理办法》等,为入驻山西综改示范区的数据标注企业供应了一系列的扶持配套政策。

如今,通过大力引进龙头企业、推进重大项目培植、加强专项资金支持等一系列举措,三晋大地集数据采集、存储、标注、做事即是一体的大数据领悟创新家当持续壮大,信息技能运用创新家当加速发展,新兴数字平台不断呈现。

“《山西省加快数据标注家当发展的履行见地》提出,到2025年,根本数据做事体系基本完善,人工智能根本数据开放平台影响力大幅提升,山西将成为全国领先的根本数据家当聚拢地,数据标注家昔时产值达到50亿元,根本数据做事年产值达到150亿元,带动人工智能干系家昔时产值达到500亿元。
”省工信厅大数据办干系卖力人表示。

本报王蕾

(责编:candy、温文)