“文心一言”屡上热搜百度云启动在清远的数据标注基地_数据_清远
3月22日,百度智能云(清远)人工智能根本数据家当基地启动仪式在清远举行。
这也是百度公司在全国布局的第9个数据标注基地。此前,百度公司曾在山西临汾、重庆奉节、四川达州、甘肃酒泉、江西新余、浙江丽水等地完成基地培植。
百度智能云(清远)人工智能根本数据家当基地。
理解到,此前百度公司在海内各地所培植的数据标注基地,对当地有孵化造就优质数据标注企业、培植区域数字经济带等利好。例如,2018年9月百度在山西建成海内首个人工智能根本数据家当基地。截至目前该基地已完成注册企业53家,个中11家被评为国家级科技型中小企业,7家被评为国家级高新技能企业;累计完成业务收入超过5亿元。
这次清远市政府与百度公司达成互助,是否旨在“复刻”上述履历?清远的数据标注基地期望的规模如何?能为清远当地带来若何的经济效益?此外,数据标注与近期传得沸沸扬扬的“文心一言”,有什么关系?
什么是数据标注师?
——将“面向人的数据”转化为“面向设备系统的数据”
走进清远市清新区富力中以科技小镇的百度智能云清远数据标注基地,在崭新敞亮的办公厅里,数据标注师通过对数据贴标签、做暗号、标颜色或划重点的办法,让机器“看得懂”数据,供机器不断学习演习。
如上的过程便是“数据标注”,也是数据标注师的事情内容。
“作为人工智能算法的‘燃料’,数据是人工智能实现运用落地的必备要素,成为近年人工智能热潮中必不可少的推动力。”业内人士先容,“但大多数数据为非构造化数据,只有经由标注、加工才能激活数据代价。”
“数据标注是对未处理的低级数据,包括语音、图片、文本、***等进行加工处理,并转换为机器可识别信息的过程。”在华南师范大学打算机学院教授范冰冰看来,数据标注是将“面向人的数据”转化为“面向设备系统的数据”。
“例如,我们知道一组化学构造的能量,这些能量是它的原始数据。我们可以将个中能量大于100单位的不稳定的构造标注为‘1’,低于100单位的稳定的构造标注为‘0’,这样处理可以让机器易于理解。” 中山大学一位以机器学习为紧张科研手段的研究生陈同学跟先容,“这是对数据进行标注的一种办法,或者叫打标签。”
“目前人工智能进军各行各业是个大趋势,伴随这个趋势,数据标注师的需求口也越来越大。”业内人士先容。有关数据显示,中国人工智能根本数据做事行业发展增长迅速。据IDC中国2021年《中国人工智能根本数据做事市场研究报告》,2020年中国人工智能根本数据做事市场规模为18亿元,估量2025年将打破120亿元,2020-2025年复合增长率为47%。
数据标注师属于“人工智能演习师”,这一职业直到2020年才正式成为新职业并纳入国家职业分类目录。然而,数据标注师的行业规模扩展迅速。据海内AI数据做事行业首家挂牌企业数据堂数据显示,截至去年年底,全国数据标注师的从业人数已经超过了2000万。
目前,百度智能云清远数据标注基地内已有首批超50名数据标注师上岗事情。
为什么选择清远?
——区位、人才、政策“三板斧”上风
去年7月,清远市政府与百度智能云签约,正式拉开双方互助的序幕。
百度智能云清远数据标注基地以“数据标注”为主营业务。据先容,一方面将加速清远市形成集数据采集、标注、流利、运用为一体的AI数据生态,构建AI数据做事体系;另一方面将供应就业创业新机会,助力清远数字人才造就。
清远缘何成为百度在广东的首个数据标注基地选址?
“清远优渥的营商环境,间隔运用市场、人才高地更近,都是企业终极选择落子清远的主要成分。”百度智能云数据运用业务部高等生态互助经理符君先容。
区位上,清远位于广东中北部,地处粤、湘、桂三省(区)交会处,向北具有“三省通衢”的独特区位上风, 近年来,清远市紧抓粤港澳大湾区培植和广东省“一核一带一区”区域发展计策的主要机遇,深入推进“广清一体化”, 不断加快“入珠融湾”步伐。
政策上,“十四五”期间,清远坚持创新驱动发展,将数字经济作为大力发展的计策性新兴家当之一,通过造就和引进5G、大数据、人工智能等新兴家当,推进数字经济高质量发展。清远市2023年政府事情报告也指出,要推动百度人工智能数据基地等项目的培植,加快打造上风家当集群,全力打造引领高质量发展的新动能新上风。
人才上,经由10年方案培植,清远省职教城内现已聚拢10所高校、超10万学生,将成为百度智能云清远数据标注基地的主要先发上风,供应数据做事支撑与人才赋能。
“清远位于广东粤北地区,经济发展起步晚、出发点低,经济发展水平与珠三角城市有差距,正大力推动融湾发展,数字经济发展将为清远供应‘弯道超车’的机会。”在启动仪式上,清远市政府干系卖力人表示,希望基地的建成能够孵化出更多精良数据标注企业和人才,为清远数据做事家当发展供应强劲的动力,延伸辐射周边地区进行创业发展,起到良好示范带动效应,逐渐形成区域数字家当经济带。
数据标注基地对清远将带来哪些利好?
——有望造就数字人才、优质数据标注企业,培植区域数字经济带
在百度智能云清远数据标注基地培植目标中,“推进区域家当链当代化”“拓展当地就业岗位”是关键词。目前,百度智能云清远数据标注基地内首批数据标注师多数为清远本地人,成功实现了“家门口的就业”。
他山之石,可以攻玉。此前落地的数据标注基地发展情形如何?对当地发展有何裨益?能否成为清远数字经济发展的参考样本?理解后认为,该基地的落子,有人才、家当等方面的利好。
打造企业“培养基”,孵化优质数字企业。以百度山西数据标注基地为例,基地依托山西省政策资源、家当根本及百度在大数据、人工智能领域丰富的生态资源,孵化造就优质数据标注企业成绩显著。截至2022年9月,百度山西数据标注基地已吸引和造就优质数据标注企业53家。个中11家被评为国家级科技型中小企业,7家被评为国家级高新技能企业。
据先容,基地可为个人供应一站式的创业扶持,包括团队组建、职员招聘、职员培训、项目补贴、运营管理等。
构建区域数据能力,培植数据智能根本举动步伐。数据标注基地可以为平台的客户供应专业、高质量的定制化AI数据做事,夯实平台做事能力和数据资源,塑造多场景、大批量的AI数据标注能力。
百度公司积累和开放了大量语音、图像、知识图谱等领域的成熟AI模型,这些AI数据产品开箱即用,能够帮助本地企业快速构建AI能力,作为数据根本举动步伐底座支撑区域智能化转型和区域高质量发展。
“这些将加速清远市形成集数据采集、标注、流利、运用为一体的AI数据生态,构建AI数据做事体系。”业内人士表示。
有助于造就数字人才,实现“家门口的就业”。“数字标注对学历水平哀求并不高。”业内人士先容,基地采取统一的标准化专业培养体系,针对不同的人才进行层级划分,分方向培养,践行“线上+线下,实训+就业”新型人才培养模式,通过一段韶光培训,数字标注师可以很快上手。
曾有专家认为,“留不住人才”是目前清远发展面临的紧张问题之一,“引进新业态,将提高就业吸引力,吸引更多清远人才‘雁归’或留住。”
□干系
“文心一言”等人工智能模型将推动数据标注师更大需求
去年2022年11月, ChatGPT谈天机器人由OpenAI公司发布,随后因其极其出色的文本天生和对话交互能力在世界范围内迅速走红,也得到许多业界人士的高度认可。例如据逐日经济***宣布,微软创始人比尔盖茨曾表示,OpenAI的GPT人工智能模型是他所见过的最具革命性的技能进步。
ChatGPT可以回答险些所有的知识问题,可以写论文、写代码……功能极其强大。而就在ChatGPT今年年初大火过后不久,百度公司即官宣将发布一款对标它的谈天程序——“文心一言”,将在三月份完成内测,面向公众年夜众开放。
一石激起千层浪,此后,百度旗下的“文心一言”程序进展成为海内不少打算机用户的关心工具,在其正式发布首日开放内测,就有超60万人申请测试。从透露到正式发布,它已多次登上海内热搜。可以预见的是,据百度官微,27日“文心一言”将上线云做事,届时又将引发关注。
作为人工智能技能,“文心一言”自然也离不开数据标注。
“‘文心’是百度公司开拓的人工智能大模型,‘文心一言’将人工智能推广到更大的运用处景,这将直接导致数据标注师需求的增加。”业内人士跟先容。
人工智能须要经由标注的数据来进行演习,每次进入新的领域,就意味着涌现一片新的未曾标注的数据蓝海。
例如在百度智能云清远数据标注基地,由于粤语语音转写是该基地落地广东后着力推动完善的功能之一,该基地须要更多粤语方面的数据,于是在招募数据标注师时会有干系方面方向,是否节制粤语也成为该基地招募数据标注师考虑的成分之一。
可以看到,百度智能云此前在海内建立的其他基地,数据标注师的人数均较多。例如在百度山西数据标注基地,已有5000名数据标注师入驻;在百度智能云(山东)人工智能根本数据家当基地,数据标注师达1500余人;而去年6月开启招聘的百度新余数据标注基地,三个月后已经有数据标注师700余人。
清远目前估量招聘的200名人数会不会较少?干系卖力人先容,基地或有扩展可能,但目前仍未明确。
【】陈立楷
【通讯员】张丹宁
【作者】 陈立楷
【来源】 南方报业传媒集团南方+客户端
本文系作者个人观点,不代表本站立场,转载请注明出处!