上海AI Lab主任周伯文亮相WAIC人工智能45°平衡律主张首次曝光_人工智能_技巧
机器之心编辑部
终于,清华大学教授周伯文正式向外界揭晓了自己的新身份——上海人工智能实验室主任、首席科学家。
7 月 4 日,2024 天下人工智能大会暨人工智能环球管理高等别会议(WAIC 2024)在上海开幕。上海人工智能实验室主任、首席科学家,清华大学惠妍讲席教授,衔远科技创始人周伯文在 WAIC 2024 全体会议上揭橥演讲。
演讲中,周伯文阐述了他的全新技能主见「人工智能45°平衡律(AI-45° Law)」,以及上海人工智能实验室实现该主见的技能路径「可信 AGI 的因果之梯」。
以下为演讲全文。
尊敬的各位领导,各位高朋,大家上午好,非常荣幸在 WAIC 大会上、在上海,与大家分享人工智能安全的前沿技能话题,我想提出一个技能主见:探索人工智能 45° 平衡律 ——Towards AI-45°Law。
当前,以大模型为代表的天生式人工智能快速发展,但随着能力的不断提升,模型自身及其运用也带来了一系列潜在风险的顾虑。
从"大众年夜众对 AI 风险的关注程度来看,首先是数据透露、滥用、隐私及版权干系的内容风险;其次是恶意利用带来假造、虚假信息等干系的利用风险;当然也诱发了偏见歧视等伦理干系问题;此外还有人担心:人工智能是否会对就业构造等社会系统性问题带来寻衅。在一系列关于人工智能的科幻电影中,乃至涌现了 AI 失落控、人类损失自主权等设定。
这些由 AI 带来的风险已初露端倪,但更多的是潜在风险,戒备这些风险须要各界共同努力,须要科学社区做出更多贡献。
去年 5 月,国际上数百名 AI 科学家和"大众人物共同签署了一份公开信《Statement of AI Risk》,表达了对 AI 风险的担忧,并呼吁,该当像对待盛行病和核战役等其他大规模的风险一样,把戒备人工智能带来的风险作为环球优先事变。
涌现对这些风险担忧,根本缘故原由是我们目前的 AI 发展是失落衡的。
先让我们来看一下目前的 AI 发展趋势:
在 Transformer 为代表的根本模型架构下,加以(大数据 - 大参数量与大打算)的尺度定律(Scaling Law),目前 AI 性能呈指数级增长。
与此形成比拟的是,在 AI 安全维度范例的技能,如:红队测试、安全标识、安全护栏与评估丈量等,呈现零散化、碎片化,且后置性的特性。
最近的一些对齐技能兼顾了性能和安全性。比如:监督衰落调 SFT、人类反馈的强化学习 RLHF 等技能,RLAIF、SuperAlignment 等。这些方法帮助将人类的偏好通报给 AI,助推呈现出了 ChatGPT、GPT-4 等令人愉快的 AI 系统,以及我们上海 AI 实验室的诗人 Intern 大模型等等。虽然瞄准的是安全和性能同时提升,但这些方法在实际利用中每每还是性能优先。
以是总体上,我们在 AI 模型安全能力方面的提升,还远远掉队于性能的提升,这种失落衡导致 AI 的发展是跛脚的,我们称之为 Crippled AI。
不屈衡的背后是二者投入上的巨大差异。如果比拟一下,从研究是否体系化,以及人才密集度、商业驱动力、算力的投入度等方面来看,安全方面的投入是远远掉队于 AI 能力的。
******刚才提出 “智能向善”。AI 要确保可控,统筹发展与安全。毫无疑问地,我们要避免这样的 Crippled AI 发展,我们该当追求的是:TrustWorthy AGI,可信的 AI,可信的通用人工智能。
实现安全与性能共同增长的 “AI-45° 平衡律”
可信 AGI 须要能够兼顾安全与性能,我们须要找到 AI 安全优先,但又能担保 AI 性能长期发展的技能体系。我们把这样一种技能思想体系叫做 “AI-45° 平衡律” (AI-45° Law)。
AI-45° 平衡律是指从长期的角度来看,我们要大体上沿着 45 度安全与性能平衡发展,平衡是指短期可以有颠簸,但不能长期低于 45°(犹如现在),也不能长期高于 45 度(这将阻碍发展与家当运用)。这个技能思想体系哀求强技能驱动、全流程优化、多主体参与以及敏捷管理。
实现 AI-45° 平衡律大概有多种技能路径。我们上海 AI 实验室最近在探索一条以因果为核心的路径,我们把它取名为:可信 AGI 的 “因果之梯”,致敬因果推理领域的先驱 —— 图灵奖得主 Judea Pearl。
可信 AGI 的 “因果之梯” 将可信 AGI 的发展分为三个递进阶段:泛对齐、可干预、能反思。
“泛对齐” 紧张包含当前最前沿的人类偏好对齐技能。但须要把稳的是,这些安全对齐技能仅依赖统计干系性而忽略真正的因果关系,可能导致缺点推理和潜在危险。一个范例的例子是巴甫洛夫的狗:当狗仅仅基于铃声和食品的统计干系性形成条件反射时,它可能在任何听到铃声的场合都触发行为分泌唾液 —— 如果这些行为涉及到…… 时这显然是不屈安的。
“可干预” 紧张包含通过对 AI 系统进行干预,探究其因果机制的安全技能,例如人在回路、机器可阐明性,以及我们提出的对抗演习训练等,它以通过提高可阐明性和泛化性来提升安全性,同时也能提升 AI 能力。
“能反思” 则哀求 AI 系统不仅追求高效实行任务,还能核阅自身行为的影响和潜在风险,从而在追求性能的同时,确保安全和道德边界不被打破。这个阶段的技能,包括基于代价的演习、因果可阐明性、反事实推理等。
目前,AI 安全和性能技能发展紧张勾留第一阶段,部分在考试测验第二阶段,但要真正实现 AI 的安全与性能平衡,我们必须完善第二阶段并勇于攀登第三阶段。沿着可信 AGI 的 “因果之梯” 拾级而上,我们相信可以构建真正可信 AGI,实现人工智能的安全与卓越性能的完美平衡。
终极,像安全可控的核聚变技能为全人类带来清洁、丰富的能源一样,我们希望通过深入理解 AI 的内在机理和因果过程,从而安全且有效地开拓和利用这项革命性技能。
也正如可控核聚变对全人类都是共同利益一样,我们坚信 AI 的安全也是环球性的公共福祉,陈吉宁布告刚刚在发布的《人工智能环球管理上海宣言》中提到 “要推动各国加强互换和对话”,我们愿与大家一起携手推进 AI-45° 平衡律的发展,共享 AI 安全技能、加强环球 AI 安全人才互换与互助,平衡 AI 安全与能力的投入,共同构建开放、安全的通用人工智能创新生态和人才发展环境。
本文系作者个人观点,不代表本站立场,转载请注明出处!