发力语料培植 让人工智能健康成长_语料_人工智能
作者:陈强(同济大学经济与管理学院教授、上海市***新时期中国特色社会主义思想研究中央研究员)
日前,在2024天下人工智能大会上,一场关于人工智能语料的论坛在上海首次举办。一年前,2023天下人工智能大会上,上海人工智能实验室、公民网、国家气候中央等单位联合发起的中国第一个大模型语料数据同盟正式成立。人工智能大模型取决于三大要素:算力、算法、语料。中国是天下上数字化运用处景最丰富的国家,各种场景供应了极为丰富的语料。中国是语料大国,但各种语料仍存在参差不齐的情形,需进一步加以规范。通过人工智能大模型,特定的输入每每会天生特定的输出,存在“种瓜得瓜,种豆得豆”的规律。从输入端动手,强化语料培植,可以推动人工智能康健发展。
在人工智能发展中,语料具有“赋能”和“教养”的双重功能,前者通过全方位的知识转移和演习,使得人工智能博闻强识,交融贯通,进而技艺轶群;后者通过多维度的情绪嵌入和代价对齐,让人工智能“通情达理”,并且“善解人意”。例如,伴随我国老龄化程度的加深,具有康健照顾护士功能的养老照顾护士机器人开始走进人们的生活。越来越多的老年人希望在享受各种专业化养老做事的同时,也能感想熏染到亲人照料般的温暖。这就须要发挥语料的教养浸染,结合特定的勉励算法,让机器人以和蔼可亲的姿态、谅解入微的做事,相应并知足老年人的养老需求。由此可见,在人工智能干系技能快速密集打破的过程中,要达到“强健其体魄、文明其精神”的目的,语料培植是关键,须要着重做好拓源、提质、铸魂三项事情。
首先是拓源。对付语料,人工智能大模型有异乎平凡的“好胃口”,当前存在语料资源的较低水平供给与大模型高强度演习需求之间的抵牾。语料培植是一项繁芜的系统工程,具有多源、高维、异构、跨界、超限等范例特色,须要广泛动员和组织政府部门、行业组织、企业等各方力量,建立语料培植的统一战线。全国各地纷纭行动,2023年,上海人工智能实验室宣告联合语料数据同盟成员单位,共同开源发布“诗人·万卷”1.0多模态预演习语料。深圳数交所则联合近50家单位成立“开放算料同盟”,多家A股公司加盟。这在一定程度上缓解了语料资源供给不敷的问题。未来仍旧须要加快拓展来源渠道,将沉淀在行业壁垒间、藏身于隐秘空间里的各种语料资源发掘出来,为人工智能大模型的迭代升级供应动力。
其次是提质。语料涉及海量的数据、文本、图片、语音、***等资源,既有“原材料”,也有“半成品”,要让大模型能够“吃”得下去,要靠数据库技能办理“消化”问题。大模型不仅要吃得饱,还要吃得好,面向行业运用的专业数据库可以给AI大模型“开小灶”。
末了是铸魂。语料对付人工智能的“思维办法”和“行为模式”具有潜移默化的影响。在语料培植中,既要开放原谅,博采天下各国文化之所长;也要汲取中华精良传统文化的精髓,为大模型准备“中餐”。中文语料尤其是中式代价不雅观语料的缺位,轻则会影响面向海内特定运用处景的垂类大模型开拓进程,重则可能失落去以我国的文化与代价不雅观赋能人工智能发展的机会。对此,应未雨绸缪,加快高质量中文语料资源培植的提速扩容,并将中国特色社会主义文化的代价取向融入个中。让功能日益强大的人工智能成为言端行正、德才兼备的“好孩子”。
《光明日报》(2024年07月17日 03版)
来源: 光明网-《光明日报》
本文系作者个人观点,不代表本站立场,转载请注明出处!