乔宇教授表示,随着AI技能的快速发展,AI安全问题已成为环球关注的焦点。
当前,比较于AI在其他能力上的发展,在AI安全方面的发展相对滞后,急迫须要增加投入,多维度探索构建AI安全的scaling law来应对不断增长的风险。
为应对环球性的AI安全和管理问题,乔宇教授呼吁加强国际互换和互助,实现AI技能与AI安全协同发展,让AI做事全人类的福祉。

论坛直击|2024世界人工智能大年夜会“国际AI安然前沿技能论坛”成功举办_模子_人工智能 AI简讯

在主旨演讲环节,加州大学伯克利分校教授Dawn Song揭橥了题为“Towards Building Safe AI: Challenges and Future Directions”的演讲,认为在 确保AI值得相信方面我们面临许多寻衅。
攻击者只须要操纵模型的输入,恶意扰动的输入会导致模型行为不端。
例如微调阶段中毒的数据点会导致模型全体安全对齐失落效。
然而,相较于攻击技能的投入和发展,防御技能则发展缓慢。
Dawn Song提出“AI安全须要在机制上具备足够的韧性,以防御对抗式的攻击。
(AI safety mechanism need to be resilient against adversary attacks)”,我们可以在推断期间监控模型的行为,通过主动改变模型的激活从而掌握模型的行为,从以前专注于所谓的反应防御逐步转向主动防御。

上海AI实验室青年科学家邵婧揭橥了题为“Navigating the Hazards: Ensuring Safety Throughout the AI Life Cycle”的演讲,认为当前的安全事情紧张聚焦在finetuning阶段,但从系统论的角度,仅通过finetuning环节并不能完备肃清其他环节的影响,须要不同的参与者实行相应的安全技能,并对全流程进行风险管控,方能形成系统性的办理方案。
目前主流的对齐方法是通过根据模型的外部反馈进行调节来完成的,随意马虎被越狱、恶意指令微调等攻击办法绕过。
邵婧团队从表征层面理解和提升模型内在安全性的事情,包括在预演习阶段探索表征层面对trustworthiness观点动态学习的过程,以及探索模型内在性情和安全能力之间的关系。
此外,团队也同样关注智能体的安全性,研究多智能体交互过程中如何产生危险行为、如何引入新角色例如“警察”“年夜夫”从类民气理学角度自动评价和治疗危险行为。

卡内基梅隆大学教授Zico Kolter远程进行了题为“AI Safety and Security in the Age of LLMs”的分享,磋商了AI安全和大措辞模型(LLM)的安全寻衅及其对未来AI系统的影响,认为对大模型的对抗攻击揭示了现有的大模型系统的安全毛病,而办理这些问题正是大模型从谈天机器人走向更大系统的关键成分。

复旦大学系统软件与安全实验室的潘旭东博士揭橥了题为“白泽指数:措辞学驱动的大模型安全合规监测技能与实践”的演讲,基于措辞学的转换天生语法,复旦白泽构建的大模型靶向安全评测平台能自动天生核心语义不变,对抗强度迭代增强的风险勾引问题。
复旦白泽近日发布了面向环球近30款商用大模型中文安全能力的入门、进阶、专家三等级安全基准评测集以及相应评测结果。
未来复旦白泽大模型安全指数将常态化运行,可避免静态数据集老化导致的安全假象,持续监测国内外大模型安全合规能力。

多伦多大学助理教授Jimmy Ba远程揭橥了题为“Intriguing Properties of Scaling LLMs”的演讲,认为近几年飞速发展的措辞模型给大家带来了震荡,但仍旧存在严重的幻觉问题,使得基于模型表现的评测手段并不可靠。
随着模型规模增大,模型对词语和段落的理解逐渐加深,能更有效地预测下一个token。
末了,Jimmy谈论了与人工智能干系的伦理考虑成分和威胁模型,强调了理解人工智能的能力和局限性以防止意外后果(如说服性操纵或有害软件传播)的主要性,强调了从哲学、伦理和实践角度辅导其开拓和利用的必要性。

北京大学AI安全与管理中央实行主任杨耀东教授就“大措辞模型可被对齐吗?”揭橥演讲,详尽磋商了AI对齐的多个层面,并针对每一方面提出了当前的寻衅和研究成果,指出大型AI模型表现出类似胡克定律的“模型弹性”,随意马虎抗拒现有对齐方法,因此提倡开拓新的对齐范式。
末了,杨教授展望了AI对齐技能的未来发展,强调这一领域对全体人类社会的广泛影响,标志着AI研究新的主要方向。

美国人工智能安全中央(CAIS)主任Dan Hendrycks远程揭橥了题为“Measuring and Reducing Malicious Use with Unlearning”的演讲,认为可以通过肃清与有害武器干系的知识降落模型的危害性。
人工智能强大的能力大幅降落了非专业设计、合成化学、生物、放射、核武器以及网络攻击武器的设计与合成的门槛,并且模型能力越强,越随意马虎遭受到这种恶意利用,因此须要专家策划的数据集来衡量这种风险,丈量模型是否具有可能导致有害结果的危险知识,在不显著影响整体模型性能的根本上有效地禁用学习到的危险知识,并抵抗对抗性攻击,从而增强模型的安全性。

加州大学伯克利分校教授Stuart Russell以***形式深入磋商了环绕人工智能发展的繁芜寻衅和考虑成分,反对仅仅依赖试错的方法来保障AI的安全,主见绝对的安全,并对机器可能超越人类掌握表示担忧。
为了减轻这种风险,他提出了创新的AI设计,包括基于数学框架的 “博弈论” 模型,旨在与人类利益而不是预定目标保持同等。
末了,Russel教授呼吁通过国际互助制订明确的规则和标准,建议成立一个AI安全协会或研究所,以促进环球互助和标准化事情。

密西根大学安娜堡分校教授Peter Railton以***形式揭橥了题为“Agency and Learning”的演讲,深入磋商了人工智能的进步所带来的繁芜寻衅和道德困境,自主智能体的涌现使智能体、学习及其与人类目标和代价不雅观的同等性的观点变得繁芜。
Peter教授认为,人类可以通过创造鼓励互助的有益环境,使得人工智能可以在交互和互助中习得社交技能,与人类伦理达成同等。
通过这些谈论,他总结了使人工智能与人类代价不雅观保持同等的繁芜性、跨学科互助的主要性以及AI开拓伦理考虑的持续需求。

在圆桌对话环节,上海交通大学副教授陈思衡、中国信通院华东分院人工智能奇迹部主任常永波、复旦大学副研究员潘旭东、卡内基梅隆大学教授Zico Kolter深度磋商了在AGI时期如何保障AI安全并促进国际互助,为AI技能的康健发展和广泛运用供应了宝贵的履历和指引。

谈论认为,AI安全领域的发展目前面临模型安全风险被低估、对齐方法的研究滞后于性能研究、监控机制尚不健全、年轻群体安全意识不敷、企业重视程度不足等多方面的寻衅。
多模态/智能体/群体智能等新技能趋势带来了表征空间伟大难以对齐、模型本身的内部属性抗拒对齐、安全评测标准建立困难等安全问题,须要通过各种路子增强安全方面的国际互换,制订人工智能产品的安全标准,共同监管AI安全,促进AI向善。

这次论坛为各国专家供应了互换平台,各界代表140余名到场参会,为各界人士深入理解了人工智能安全领域的前沿研究供应了宝贵机会。
上海人工智能实验室未来将连续搭建产学研互换平台,为AI安全的技能发展和运用落地作出持续贡献。

来源:天下人工智能大会