兰德公司宣告:《强化进修人工智能系统的风险评估》_技巧_美国国防部
2024年7月2日,兰德公司发布报告《强化学习人工智能系统的风险评估》,谈论了美国国防部在实际运用强化学习技能时可能面临的一些寻衅。在繁芜的计策游戏中,强化学习系统击败天下级专家,然而在实际运用中这种系统会带来哪些风险尚未可知。元计策编译该报告重点内容,为理解在作战指挥和掌握利用强化学习系统的干系风险供应借鉴。
一、研究背景
该报告磋商了将强化学习(RL)技能引入美国国防部的潜在风险,描述了随着人工智能所实行任务的规模、繁芜性和主要性日益增长,美国国防部所面临的风险。近期,人工智能在医学、自然措辞处理和自动驾驶等多种运用领域取得了令人瞩目的造诣。在游戏领域,人工智能已经节制了国际象棋和围棋等经典棋类游戏,此外《星际争霸II》和《Dota2》等繁芜的在线游戏,常日都有强化学习技能的影子,这引发了人们对将强化学习技能运用于美国国防部的极大兴趣。
该报告利用一个为繁芜的美国国防部任务供应决策剖析的虚拟强化学习运用程序来磋商个中的一些问题。之以是选择这么一个繁芜且范围广泛的运用程序是为了涵盖美国国防部的各种领域,以提取在初步评估技能可行性时可能会忽略的多重寻衅和后果。兰德公司的技能专家和目前在兰德公司事情的几位美国国防部研究员参加了为期一天的辅导研讨会,对该运用进行了剖析。通过这次研讨会,明确了一系列主要寻衅,这些寻衅可能是美国国防部在基于决策的繁芜运用中利用强化学习技能时须要考虑的问题。
二、研究问题
1.在繁芜的美国国防部运用中开拓和支配强化学习系统可能会面临哪些紧张技能寻衅?
2. 在利用这种技能时,美国国防部可能会面临哪些紧张的非技能寻衅,例如因支配强化学习技能而导致的部队重组?
3. 如果有的话,有哪些办理方案可用于应对这些寻衅,如果不履行这些方案,会有哪些潜在风险?
4. 如果办理方案包括重新演习强化学习系统以应对意外故障,如何确定重新演习的需求?在运用中发生故障时,这种再演习是否可行?
5. 确定的寻衅如何匹配运用范围(狭义或广义)和技能支配的速率?
三、研究方法
研究职员首先对强化学习技能进行文献综述,以确定当前科技界在利用强化学习技能开拓运用时面临的技能寻衅和取得的成功。回顾的内容既包括紧张针对仿照环境的运用(如游戏),也包括旨在终极实现真实天下操作的商业运用(如自动驾驶)。在紧张由非技能性国防部专家组成的研讨会上,提出并总结了八个寻衅领域。然后,研究职员制订了替代方案,以帮助探索在美国国防部运用中支配基于强化学习技能的系统所面临的寻衅和影响。为了突出探索重点,研究职员选择了一种繁芜的、基于决策的美国国防部运用——作战级指挥与掌握,它可能会对美国国防部的部队构造、支配和当前技能水平提出各种寻衅。这种运用会因任何已确定的和未缓解的寻衅而产生严重后果。它还能让美国国防部从运用范围、粗略支配时限以及可能须要美国国防部部长期投资或调度的问题等方面考虑强化学习技能。研究职员制订了两种方案:一种因此“爬行-行走-运行”的办法逐步开拓和支配强化学习代理或系统,另一种因此“冒进”的办法直接进入运行阶段。
然后,研究职员磋商了一种有辅导的研讨会形式,旨在为美国国防部参与者供应一个有用的论坛,以提出在选定场景中利用强化学习技能所面临的寻衅和可能的办理方案。这个框架许可美国国防部的参与者自由谈论,他们可能有操作履历,但在人工智能方面履历很少或没有履历。研究职员首先考虑了一个正式的基于风险的框架来运用于研讨会,但文献综述创造没有这样的框架适宜人工智能。如果构建这样一个框架,将会由于对强化学习技能故障率的不甚理解而变得繁芜,并且会给为期一天的研讨会带来不必要的繁芜性。研究职员决定修正Mayer等人开拓的框架。
研讨会为期一天,分三次会议进行。第一场会议最初侧重于在“爬行-行走-奔跑”和“冒进”情景下支配强化学习技能对美国国防部部队构造提出的寻衅。假定该技能已经由充分的测试和验证,适宜支配。这种假设的目的是将重点从专用于翱翔任务的技能寻衅转移开来。在第二场会议中,通过文献综述总结出的技能寻衅被供应给与会者审议,而不是从头开始提出寻衅。第三场会议用于谈论与会者认为在前两次会议中缺失落的问题。这一环节还被用来审议所谈论的一些关键寻衅。
四、研究创造
1.美国国防部在利用和开拓强化学习技能方面可能受到限定,缘故原由是缺少该领域的专业技能人才,而且由于该领域竞争激烈、利润丰硕,一旦得到干系职员此类技能,就很难留住人才。
2. 随着强化学习运用程序规模扩大,其对数据的哀求也越来越高,这可能会超出美国国防部培训范围较窄的运用程序的能力。
3. 强化学习技能的黑箱决策性子,以及人类不愿意相信此类系统的非直不雅观判断所带来的问题,可能会限定运用的规模,使其仅限于目前由人类实行的决策流程。人类无法合理评估的大型决策流程可能会面临信赖问题。
4. 随着运用范围的扩大,强化学习技能还面临许多其他寻衅,包括演习集和仿照模型的增长。在这种情形下,测试与评估可能会变得非常棘手。用于演习强化学习技能的现实模型无法捕捉物理天下的繁芜性和变革,当强化学习技能碰着偏离其演习的情形时,可能会涌现不可预知的失落败。因此,测试与评价可能会成为一个费力的过程,须要找到失落效模式并进行后续演习,以迫使强化学习系统按预期运行。
5. 虽然文献中的许多办理方案针对的是个别寻衅领域,但在美国国防部的广泛运用中可能存在的所有寻衅都没有找到办理方案。
五、政策建议
1. 美国国防部应探索如何吸引、培训和留住一支具备利用强化学习技能所需技能的员工军队。鉴于强化学习技能的前沿性和动态性,吸引相应的人才非常主要。从文献中总结的一些技能组合包括:开拓新算法以办理特定问题的能力;演习强化学习系统的数据工程技能;演习强化学习系统的建模环境;以及在真实测试环境中探求失落败实例以重新演习强化学习技能或修正其算法的剖析技能。要吸引这些人才,可能须要改变部队构造,使美国国防部在人工智能领域的事情与私营部门的事情具有竞争力。
2. 美国国防部应制订方法,以获取和天生与美国国防部问题干系的数据,以及强化学习算法培训所需的数据。这些数据必须包括在预期强化学习系统运行的环境和情形下网络的操作数据。如果预期强化学习系统将取代一个因其性子而没有许多可借鉴实例的决策过程,则网络或天生此类数据集可能会具有寻衅性。
3. 在能够利用强化学习技能的上风之前,美国国防部应更好地理解强化学习运用的局限性,以及它如何供应优于现有技能的上风。这种理解将包括在作战情形下对强化学习技能进行充分测试和再培训的过程,以及将预期风险降落到可接管水平的能力。
4. 美国国防部应考虑利用运用于较小问题的狭义人工智能可能带来的渐进式进步,而不是一开始就追求运用于更繁芜问题的广义人工智能可能带来的上风。这种方法可能会带来较小的风险,同时为更广泛的人工智能供应一种勾引演习手段。
六、结语
强化学习技能和一样平常的人工智能技能为美国国防部供应了具有潜在计策上风的能力。但美国国防部的许多任务,特殊是那些可能涉及计策决策的任务,都具有广泛性,这就给这种技能带来了寻衅。由于强化学习技能是通过与环境的反复交互来学习的,因此这类任务可能无法通过建模来为强化学习系统供应足够演习实例,以防止任务涌现潜在的灾害性失落败。由于强化学习技能在办理狭小问题方面已表现出令人难以置信的能力,因此对美国国防部而言,其代价可能在于找到美国国防部任务中的“甜点”,在这个“甜点”上,可以对强化学习技能进行充分演习,以补充或超越人类的决策能力,同时充分减少其失落误,将任务风险降落到可接管的水平。与此同时,还必须考虑仅由技能故障引起的风险。对部队构造以及培训、操作和掩护任何基于强化学习技能的系统的能力的影响也很主要。可能须要技能闇练的职员来办理潜在的强化学习技能故障,或留在原地监测和评估强化学习系统输出。技能丢失、技能退化、职员转移以及对人工智能干系专业技能的需求,都是在选择强化学习技能为美国国防部供应最大代价时须要考虑的成分。
免责声明:本文转自元计策。文章内容系原作者个人不雅观点,本公众年夜众号编译/转载仅为分享、传达不同不雅观点,如有任何异议,欢迎联系我们!
转自丨元计策
研究所简介
国际技能经济研究所(IITE)成立于1985年11月,是从属于***发展研究中央的非营利性研究机构,紧张职能是研究我国经济、科技社会发展中的重大政策性、计策性、前瞻性问题,跟踪和剖析天下科技、经济发展态势,为中心和有关部委供应决策咨询做事。“环球技能舆图”为国际技能经济研究所官方微信账号,致力于向公众年夜众通报前沿技能资讯和科技创新洞见。
地址:北京市海淀区小南庄20号楼A座
电话:010-82635522
微信:iite_er
本文系作者个人观点,不代表本站立场,转载请注明出处!