特约专栏丨高新波教授:人工智能未来成长趋势分析_深度_数据
如果按照聪明和笨、勤奋和
聪明每每是指一个人机警灵巧,学习中具有举一反三、举一反三的能力。这样的人不费多少力气就能节制某种知识和技能,而且长于办理繁芜问题,尤其因此前没有处理过的问题。而勤奋则是指认负责真努力干好每一件事情,不怕吃苦,踏实肯干。这样的人默默持久的坚持,有一种水滴石穿、永不言弃的精神。
经由了60多年的发展,人工智能(Artificial Intelligence, AI)便是父母口中所说的那个别人家的孩子,看上去绝不费力却取得了很大的成功。实在,本日的AI只是一个勤奋、听话、精力充足、几近完美的“笨小孩”。比如,打败围棋九段柯洁和李世石的AlphaGo存储了多达100万盘棋谱,它正是通过学习这些数据才总结出柯洁和李世石下棋的策略,进而提前做出布局。而柯洁和李世石两个人加起来终其生平也不可能下到100万盘棋。只管后来AlphaGo的升级版AlphaGo Zero已经无需再输入棋谱,而是从零根本开始,通过自己旁边互搏自学成才。AlphaGo Zero不断探索和累积履历,现在已碾压AlphaGo。但是,我们却很难把AlphaGo和AlphaGo Zero与“聪明”关联起来。由于它们的成功更多来自“勤能补拙”,就像是我们自己家的那个懂事勤奋又刻苦的孩子,确实取得了很大成功,但是其实相称不易,非常辛劳!
我们由衷地为孩子高兴,却又总以为苦了孩子,总希望他们能多一点聪明,少一点费力!
同样的道理,我们也希望未来的AI更多地赢在“智能”而不是“人工”上。
对付未来AI的发展,大家都做出了很多预测。概括起来,大致可以总结为以下六个方面的发展趋势。如果在这些方面不断取得新打破,就会使AI不仅勤奋而且聪明,可更好地知足人们的须要。
一、绿色低碳更机动的人工智能2021年10月24日,中共中心、国务院《关于完全准确全面贯彻新发展理念做好碳达峰碳中和事情的见地》提出大力发展绿色低碳家当,为 AI赋能家当提出了新哀求——绿色化助力碳中和。清华大学智能家当研究院院长张亚勤提出AI+IoT绿色低碳运用处景,一是清洁能源和传统能源的领悟领域,AIoT技能可以监测碳排放,智能调度;二是信息和通信技能家当本身,大型的数据中央、5G等快速发展,花费了很多能源,AI可以运用个中实现节能减排;三是新兴家当,比如在绿色城市、绿色交通等领域,AIoT也大有可为。
实在,未来AI自身的发展也该当沿着绿色低碳方向进行。当下的AI正在“野蛮成长”,其算法、数据和算力这三大基石也在进行规模扩展式发展。深度神经网络的模型规模越来越大,参数越来越多,因此所须要演习样本的规模越来越大,演习网络所需的算力必须越来越强,对资源的花费一定越来越高。这样的发展显然是与绿色低碳背道而驰。以OpenAI提出的自然措辞处理领域的GPT模型为例,其强大的功能是建立在超大的演习语料、超多的模型参数,以及超强的打算资源之上。GPT模型的参数量为1.17亿,预演习数据量5GB;GPT-2的参数量为15亿,预演习数据量40GB;GPT-3的参数量为1750亿,预演习数据量45GB。听说,GPT-4的参数量将达到100万亿,比GPT-3还要大500倍。同时,针对监督学习来说,数据量的增长须要很多人力进行样本标注,从而产生了一批又一批被AI“累去世”的人。为此,有人提出了“难道有多少人工,才有多少智能?”这样的灵魂拷问。
反不雅观人类的聪慧表示在“否定”“遗忘”“有所为有所不为”等哲学上。这样的聪慧是在做减法,通过主动“选择”走上了一条绿色极简的发展道路。为了实现绿色低碳智能系统,我们希望未来AI的发展方向该当是做“减法”而不是做“加法”。一方面构建更为机动的网络模型,通过轻量化的模型降落对数据量和算力的需求;另一方面,构建更为高效广泛的共享复用机制,针对AI大模型,加大开放、共享的广度和深度,提高预演习模型的效益,从而从宏不雅观上实现绿色低碳的总体效果。总之,“创新、折衷、绿色、开放、共享”五大发展理念为未来AI的发展指明了方向,提出了根本遵照。
二、知识数据双驱动的人工智能
人工智能的发展进程常常被划分为两代,即知识驱动的AI和数据驱动的AI。第一代AI紧张基于知识库和推理机来仿照人类的推理和思考行为。其代表性成果便是IBM公司的Deep Blue和Deeper Blue,于1997年5月打败了当时的国际象棋冠军卡斯帕罗夫。知识驱动的AI具有很好的可阐明性,而且知识作为一种数据和信息高度凝练的表示 , 也每每意味着更高的算法实行效率。但是,其缺陷在于完备依赖专家知识。一方面,将知识变成机器可理解可实行的算法十分费时费力;另一方面,还有大量的知识或履历难以表达建模。因此,知识驱动的AI的运用范围非常有限。
第二代AI则基于深度学习来仿照人类的感知,如视觉、听觉、触觉等。其代表性成果便是深度神经网络,通过网络大量的演习数据并进行标注,然后演习设计好的深度网络。这类AI不须要领域知识,只须要通过大数据的演习就可以达到乃至超过人类的感知或识别水平。这类AI具有通用性强、端到真个“黑箱”或傻瓜特性。但是,也正是由于其“黑箱”特性,才使得第二代AI算法非常薄弱,依赖高质量、带标记的大数据和强大的算力。因此,具有鲁棒性差、不可阐明,以及不太可靠等瓶颈问题。
为此,清华大学张钹院士提出第三代AI,希望将知识驱动和数据驱动结合起来,充分发挥知识、数据、算法和算力四要素的浸染,建立可阐明的鲁棒AI理论。为了探索知识与数据双驱动AI的落地,华为云提出了知识打算的观点。它把各种形态的知识,通过一系列AI技能进行抽取、表达后协同大量数据进行打算,进而产生更为精准的模型,并再次赋能给机器和人。目前,知识打算在多少垂直行业得到初步成功。为此,华为云把明确定义的运用处景、充足的算力、可以演进的AI、组织与人才的匹配归纳为影响行业AI落地的4个关键要素。但是,这种垂直行业成功的AI间隔通用AI却是渐行渐远。未来,数据与知识双驱动的通用AI将是一项极具寻衅性的课题。
三、人机物领悟的稠浊人工智能
习近平总布告在2021年5月中国科协第十次全国代表大会上的讲话指出:“以信息技能、人工智能为代表的新兴科技快速发展,大大拓展了韶光、空间和人们认知范围,人类正在进入一个人机物三元领悟的万物智能互联时期”。为此,我们的研究工具将由过去的物理 - 信息系统(CPS)向物理-信息-人类社会更繁芜的系统扩展。人类所面临的许多问题具有不愿定性、薄弱性和开放性,同时人类也是智能机器的做事工具和终极“代价判断”的仲裁者,因此,人类智能与机器智能的协同将是贯穿始终的。这就须要将人的浸染或认知模型引入到AI中,从而形成“人机稠浊智能”或“稠浊增强智能”。
人机稠浊增强智能有两种形态,一种是人在回路中(Human-in-the-loop)的稠浊增强智能;一种是人在回路上(Human-on-the-loop)的稠浊增强智能,或者说基于认知打算的稠浊增强智能。前者将人作为一个打算节点或者决策节点放置于全体智能回路中;后者则将人的认知模型引入到AI系统,形成一种类人的AI。实在“人机稠浊”这一观点并不陌生,人与动物一个最主要的差异便是人会制造和利用工具,而人利用工具的过程便是“人机稠浊”的过程。机器化时期,人机稠浊延伸和增强人的体力;信息化时期,人机稠浊延伸和增强人的感知力;在本日的智能化时期,人机稠浊增强人类的智力,将是人脑主导的“感知力增强”和“智力增强”。比如,可穿着设备,智好手表、智能眼镜、智能服装等,都帮助我们构建以人为中央的智能系统。人机稠浊增强智能系统的技能瓶颈在于人机的自然交互或接口技能,这将是未来AI研究的难点和关键核心问题。
当前,人机稠浊智能已经有了很多考试测验。比如,可穿着搬运机器人在马达驱动下支撑人的上半身,减轻搬运重物时腰部包袱;一些科学家还考试测验将电极植入人脑中,让人脑可以随时直接从打算机中下载或上传数据,大幅提升人类的认知能力。未来人机稠浊增强智能希望能够建立以人为中央的智能形态,担保它“可用、好用”,而且“可控”。此外,当前的AI由于尚没有自主的意识,其代价不雅观紧张是由利用者的代价不雅观决定。因此,我们须要通过人机稠浊的办法为AI“立心”,从而让AI更好的为人类“立功”。
四、可信可靠可阐明的人工智能
机器学习尤其是深度学习的发展使得人工智能模型越来越繁芜,而这些更繁芜更强大的模型变得越来越不透明。再加上这些模型基本上仍旧是环绕干系性和关联性建立的,从而导致很多寻衅性的问题,如虚假的关联性、模型调试性和透明性的缺失落、模型的不可控,以及不受欢迎的数据放大等。个中,最核心的问题便是AI的可阐明性。这一问题不办理,AI系统就会存在不可信、不可控和不可靠的软肋。2019年欧盟出台《人工智能道德准则》,明确提出AI的发展方向该当是“可信赖的”,包含安全、隐私和透明、可阐明等。
2016年,来自谷歌机器学习科学家Ali Rahimi在NIPS大会上表示,当前有一种把机器学习当成炼金术来利用的缺点趋势。同年,美国国防高等研究操持局制订了“DARPA Explainable AI (XAI) Program”,希望研究出可阐明性的AI模型。关于“可阐明性”,来自谷歌的科学家在2017年ICML会议上给出一个定义——可阐明性是一种以人类理解的措辞 ( 术语 ) 给人类供应阐明的能力(Interpretability as the ability to explain or to present in understandable terms to a human)。人有显性知识和隐性知识,隐性知识便是履历直觉,人可以有效地结合两种不同的知识;而我们在阐明、理解事物时必须是利用显性知识。当前的深度学习因此概率模型得到了隐性的知识,而显性知识适宜用知识图谱来仿照。但是,目前深度学习和知识图谱这两个天下还没有很好地走到一起。
可阐明性哀求对AI系统的技能过程和干系的决策过程能够给出合理解释。技能可阐明性哀求AI做出的决策是可以被人们所理解和追溯。在AI系统会对人类的生命造成重大影响时,就须要AI系统的决策过程有一个合理的阐明、提前的预判与合法的掌握。因此可阐明性AI有三大需求,第一是使深度神经网组件变得透明;第二是从深度神经网里面学习到语义图;第三是天生人能理解的阐明。
AI系统不一定故意识,但可以有目的。机器学习的真正难点在于担保机器的目的与人的代价不雅观同等。AI面临的主要寻衅不是机器能做多少事,而是知道机器做的对不对。
五、非深度神经网络的人工智能
本日AI的成功在很大程度上是大数据和深度学习的成功。如果把AI未来的发展全部寄托在深度神经网络上,总让人感到有些单调,只管目前的网络形态也是多种多样的。为了保持“物种的多样性”,有必要研究深度神经网络以外的AI系统。
南京大学周志华教授认为,深度神经网络之以是成功的缘故原由紧张是基于逐层加工处理、内置特色变换和模型繁芜度三个关键成分。但是,这三个成分并没有“哀求”我们必须利用神经网络模型;只要能同时做到这三点,别的模型该当也能做深度学习。为此,他们提出了“深度森林”这种非神经网络的新型深度学习模型。深度森林的根本构件是不可微的决策树,其演习过程并不基于BP算法,乃至不依赖于梯度打算。“深度森林”具有演习大略、效率高档优点,小规模演习数据也可运转,而且在理论剖析方面也更随意马虎。因此,成为非深度神经网络AI系统的一种考试测验。
此外,华南理工大学陈俊龙教授认为,虽然深度构造网络非常强大,但大多数网络都被极度耗时的演习过程所困扰。个中最紧张的缘故原由是,上述深度网络都构造繁芜并且涉及到大量的超参数。为此,他提出了宽度神经网络系统。相对付“深度”构造来说,“宽度”构造由于没有层与层之间的耦合而非常简洁。同样,由于没有多层连接,宽度网络亦不须要利用梯度低落来更新权值,以是打算速率大大优于深度学习。在网络精度达不到哀求时,可以通过增加网络的“宽度”来提升精度,而增加宽度所增加的打算量与深度网络增加层数比较,可以说是微乎其微。当然,也有学者认为,现有的宽度学习仅适用于数据特色不多,但对预测实时性哀求较高的场景。
不管是深度森林还是宽度网络,它们的意义在于为我们供应了未来AI系统的更多可能,以及多元化的新选择。从而避免涌现人们不得不被迫选择深度神经网络的无奈。我们相信,未来一定还会有更多的非深度神经网络的AI系统,由于系统多样性是改进AI生态环境的主要保障。
六、开放环境自适应的人工智能
本日AI取得的成功基本上都是封闭环境中的成功,个中的机器学习有许多假设条件,比如针对数据的独立同分布假设,以及数据分布恒定假设等。我们常日要假定样本种别恒定,测试数据的种别是与演习数据的种别同等,不会涌现演习时没有碰着的种别。此外,样本属性也是恒定的,在测试时也哀求属性特色完备。而实际情形是,我们现在越来越多地碰到所谓的开放动态环境。在这样的环境中可能统统都会发生变革,这就哀求未来的AI必须具备环境自适应能力,或者说哀求AI的鲁棒性要强。
比如,在自动驾驶或无人驾驶领域,在实验室的封闭环境下,无论采集多少演习样本都不可能涵盖所有情形,由于现实天下远比我们想象的丰富。这样在自动驾驶的过程中会碰着越来越多的以前没有见到的分外情形,尤其是越是突发事宜,越是很少涌现的场景,这就对AI系统的自适应性或鲁棒性提出极大的寻衅。因此,未来AI的发展必须能应对“开放环境”的问题,即如何在一个开放环境下通过机器学习进行数据剖析和建模。
此外,现有AI技能依赖大量的高质量演习数据和打算资源来充分学习模型的参数。在系统初始建模阶段,由于数据充分能够得到比较空想的效果。然而,在投入利用一段期间后,在线数据内容的更新,就会产生系统性能上的偏差,严重时直接导致系统下线。在演习数据量有限的情形下,一些规模巨大的深度神经网络也随意马虎涌现过拟合,使得在新数据上的测试性能远低于之前测试数据上的性能。同时,在特天命据集上测试性能良好的深度神经网络,很随意马虎被添加少量随机噪声的“对抗”样本欺骗,从而导致系统很随意马虎涌现高可信度的缺点判断。因此,发展鲁棒性、可扩展性强的智能学习系统必定会成为下一代AI系统的主要研究课题。
从以大将来AI系统发展的六种形态以及各自的发展趋势来看,下一步的研究须要系统、全面地借鉴人类的认知机理,不仅是神经系统的特性,还有认知系统(包括知识表示、更新、推理等),发展更加具有生物合理性,以及更灵巧、更可信可靠的AI系统。唯有如此,未来AI系统才能够实现“不仅勤奋而且更聪明更有聪慧”的空想。
让我们共同努力,一起向未来!
(参考文献略)
本文系作者个人观点,不代表本站立场,转载请注明出处!