作者:Jiying

若何解释AI做出的决定筹划?一文梳理算法应用场景和可解释性_模子_变量 AI快讯

编辑:H4O

本文结合《Explanation decisions made with AI》指南,重点对算法的运用处景和可阐明性剖析进行了梳理总结。

英国的 Information Commissioner’s Office (ICO)和 The Alan-Turing Institute 联合发布了《Explanation decisions made with AI》指南。
该指南旨在为机构和组织供应实用建议,以帮助向受其影响的个人阐明由 AI 供应或帮忙的程序、做事和决定,同时帮助机构和组织遵照欧盟 GDPR 等与个人信息保护干系的政策哀求。
该指南分为三个部分,第 1 部分:可阐明 AI 的根本知识;第 2 部分:可阐明 AI 的实践;第 3 部分:可阐明 AI 对机构 / 组织的意义。
指南末了给出了主流的 AI 算法 / 模型的适用场景,以及对这些算法 / 模型的可阐明性剖析,可作为实践任务中结合运用处景特点选择能够知足领域哀求的可阐明性的 AI 算法 / 模型的参考。

本文结合《Explanation decisions made with AI》指南,重点对算法的运用处景和可阐明性剖析进行了梳理总结。
此外,我们还解读了一篇医学领域可阐明性方法的最新论文—《评估药物不良事宜预测中基于把稳和 SHAP 韶光阐明的临床有效性》,以理解关于可阐明性方法的最新研究进展。

1、算法的运用处景和可阐明性剖析

《Explanation decisions made with AI》指南给出了主流的 AI 算法 / 模型的适用场景,以及对这些算法 / 模型的可阐明性剖析,作者对主流模型的可阐明脾气况进行了梳理总结。

2、评估药物不良事宜预测中基于把稳力机制和 SHAP 韶光阐明的临床有效性

可阐明的机器学习是一个新兴的领域,它考试测验以更人性化的办法帮助我们理解黑盒分类器模型的决策。
特殊是对付医疗领域,可阐明性对付供应公开透明的剖析和合法的决策结果至关主要。
具备可阐明性,一线医疗利益干系者就可以信赖模型的决定并采纳适当的行动。
此外,全面的可阐明性能够确保医疗履行的用户可能获取监管权利,例如根据欧盟通用数据保护条例(GDPR):"得到阐明的权利"。

在医疗领域,深度学习模型运用于电子康健记录(Electronic Health Record,EHR)数据得到了很好的效果。
例如循环神经网络(RNN)能够有效捕捉 EHR 中韶光干系的和异质的数据繁芜性。
然而,RNNs 的一个紧张缺陷是缺少内在的可阐明性。
在过去的研究过程中,已经产生了几种使 RNNs 更具阐明性的方法,例如,通过引入把稳力机制使模型本身更易阐明,如用 RETAIN;事后可阐明性框架(如 SHAP)可以运用于概述 RNNs 的韶光阐明等等。

RETAIN[2]:用于剖析 EHR 数据以预测病人未来涌现心力衰竭的风险。
RETAIN 受把稳力机制启示,通过利用一个两层的神经把稳力模型,并对 EHR 数据进行逆序输入系统,仿照年夜夫知足病人需求及剖析病人记录时专注于病人过去诊疗记录中某些分外临床信息、风险成分的过程,在担保预测结果准确性(Accuracy)的同时确保了却果的可阐明性(interpretability)。

SHAP[3]:来自于博弈论事理,SHAP(SHapley Additive exPlanations)为特色分配特定的预测主要性值,作为特色主要性的统一度量,能够阐明当代机器学习中大多数的黑盒模型,为机器学习模型量化各个特色的贡献度。
给定当前的一组特色值,特色值对实际预测值与均匀预测值之差的贡献便是估计的 Shapley 值。

然而,关于医学预测领域 RNN 的可阐明技能所供应的韶光阐明的质量,还存在着研究空缺。
支持和反对利用把稳力作为阐明方法的论点都存在,一些证据表明,利用把稳力得分可以供应足够的透明度来阐明单个特色如何影响预测结果。
而还有一些证据则质疑了把稳力机制的有效性,由于把稳力值和更直不雅观的特色主要性丈量之间的干系性很弱。
在实践中,用于模型阐明的可视化平台已经成功地利用了把稳力分数来为医学预测供应阐明。
然而,利用把稳力值的整体效用还须要更深入的验证,特殊是与利用其他可阐明方法(如 SHAP)比较。

本文的紧张目标是探索具有内在可阐明性的 RNN 通过把稳力机制能够在多大程度上供应与临床兼容的韶光阐明,并评估这种阐明该当如何通过运用事后方法来补充或取代,例如对黑盒 RNN 的 SHAP。
本文详细在药物不良事宜(Adverse Drug Event,ADE)预测的医学背景下磋商这个问题。
结合我们所解读的《Explanation decisions made with AI》指南,这篇文章所谈论的是范例的必须运用非线性统计技能的情形。
在上一章节的梳理中,指南已经明确“由于曲线(极度非线性)的方向和输入变量的高维度,导致 ANN 非常低的可阐明性。
ANN 被认为是 "黑盒" 技能的缩影。
在适当的情形下,应该引入阐明工具赞助 ANN 的利用。
”。
因此,本文所做的事情便是为运用于医学领域的 ANN 方法引入适当的赞助阐明工具(把稳力机制和 SHAP 韶光阐明)。
当然,正如我们在之前的解读等分析的,在一些运用处景中,大略的白盒模型 / 方法无法知足运用须要,为了担保较高的准确度 / 预测率,有时必须采取黑盒算法 / 模型。
而如何在这种情形下通过引入赞助阐明工具帮助模型 / 系统的用户更好的理解阐明,便是下面这篇论文会详细先容的了。

2.1 方法先容

令ε={P1,...,Pn}表征 n 个病人的数据库。
Pj 表征 K 个病人就诊数据记录,Pj = {x_1, . . , x_k},个中,x_k 发生在韶光点 t_k,包含一组描述该次诊疗的医疗变量,考虑到第 j 个病人在韶光点 t-1 的病史数据 Pj={x_1, . . . , x_t-1},我们的任务是预测韶光点 t 的 ADE 的发生,并准确地阐明为什么利用病人病史的全体韶光构造来预测这种 ADE。
为理解决这个问题,本文将 RNN 模型和可阐明性技能结合起来,对全局和局部阐明的方法进行了比较和临床验证的剖析。

SHAP 框架确定了加法特色主要性方法的种别,以供应模型无关的阐明。
SHAP 已经成为一种盛行的模型可阐明性方法,由于它拥有多种空想的特性,即全局同等的阐明,这是其他事后方法所不能供应的,在这些方法中,局部定义的预测可能与全局模型的预测不一致。
SHAP 建立在利用博弈论中的 Shapley 值的根本上,在博弈论中,通过将不同的特色视为同盟中的不同玩家来打算特定特色值对选定预测的影响。
这些特色中的每一个都可以被看作是对预测的相对贡献,这些贡献可以通过打算可能的同盟中的边际贡献的均匀值而被打算为 Shapley 值。

Shapley 值(表示为φ_ij),可以理解为每个特色值 x_ij 对每个样本 i 和特色 j 的预测偏离数据集的均匀预测的程度。
在本研究中,每个医疗变量的 Shapley 值是针对病史中的每个韶光点打算的,以阐明每个医疗变量对预测的影响是如何高于或低于基于背景数据集的预测均匀值的。

递归神经网络(RNN)是前馈神经网络模型的概括,用于处理连续的数据,拥有一个持续的内部状态 h_t,由 j 个隐蔽单元 h_j 组成,作为处理连续状态之间的依赖关系的影象机制,在本文案例中详细是指跨韶光点的病人诊疗信息。

本文希望采取一个基本的 RNN architechure 与 SHAP 相结合,它该当能够达到与 RETAIN 相称的性能水平,以帮助直接比较有效性阐明方法,而不会由于过度追求可阐明性而影响了模型本身的性能。
详细的,本文基本 RNN 模型的内部状态由门控递归单元(GRU)组成,通过迭代以下方程定义:

个中,r_j 为复位门,它决定了一个状态中的每一个第 j 个隐蔽单元的前一个状态被忽略的程度;h_t-1 是上一个隐蔽的内部状态;W 和 U 是包含由网络学习的参数权重的矩阵;z_j 是一个更新门,决定了隐蔽状态该当如何被更新为新的状态 h_new;(h_j)^t 表示隐蔽单元 h_j 的激活函数;sigm( )表示 sigmoid 函数;◦是 Hadamard 积。

本文采取与 SHAP 相结合的 GRU 架构,包括两个 128 个单元的堆叠的 GRU 隐蔽层,然后是 dropout 层,末了是一个全连接层,通过一个 softmax 函数产生输出分类概率ˆy。

为了网络基于把稳力的韶光阐明,本文采取了 RETAIN 的 RNN 架构,在预测阶段,基于把稳力的贡献分数可以在单个医学变量层面上确定。
这个 RNN 首先由输入向量 x_i 的线性嵌入组成:

v_i∈R^m 是二进制输入向量 x_i∈R^V 的嵌入,W_emb∈R^(m xV)是嵌入的权重向量,m 是 V 个医疗变量的嵌入维度。
利用两个 RNNs,RNNa 和 RNNb 分别用于天生访问和可变水平的把稳力向量α和β。
把稳力向量是通过在韶光上向后运行 RNN 来天生的,这意味着 RNNα和 RNNβ都以相反的顺序考虑访问嵌入。
末了,我们得到每个病人在第 i 次就诊前的情形向量 c_i:

然后,终极预测结果的打算方法如下:

基于把稳力的贡献得分可以确定对某一预测贡献最大的访问和医疗变量。
分数可以用下式打算:

在本文研究中,根据 RNN-GRU 模型修正了 SHAP,利用的是原始 SHAP 实现的修正代码库。
作者采取了深度学习模型的梯度阐明方法,该方法基于预期梯度,利用 1000 个随机样本的背景数据,为每个预测供应 Shapley 值的近似值。
作者表示,这种分外的近似处理并不担保 SHAP 的每一个属性,但对付本文的目标来说是得当的。

2.2 验证方法先容

本研究利用的数据库由 1,314,646 名患者的诊断、药物和文本记录组成,这些记录来自斯德哥尔摩大学的瑞典康健记录研究银行(HealthBank);这是一个匿名的患者记录数据库,最初来自瑞典斯德哥尔摩卡罗林斯卡大学医院的 TakeCare CGM 患者记录系统。
诊断由《国际疾病和干系康健问题统计分类》第十版(ICD-10)中的标准化代码组成。
药物是根据解剖学治疗化学分类系统(ATC)进行编码的。
为了减少问题的繁芜性,并增加病人的匿名性,非 ADEICD-10 和 ATC 代码被减少到其更高层次的等级种别,通过选择每个代码的前三个字符得到。
此外,就诊因此月为单位定义的,这意味着在一个日历月内分配给病人的所有代码和药物的组合构成了一次就诊记录。
患者须要拥有至少三次这样的记录,相称于至少三个月的数据。
与 ADE 干系的词袋特色也被提取为二元医学变量。
本研究利用了 1813 个医疗变量,包括 1692 个 ICD-10 编码,109 个 ATC 编码和 12 个关键词特色。

评估实验将数据随机划分为演习集、验证集和测试集,比例分别为 0.7、0.1 和 0.2。
在验证集上呈现最佳 AUC 的演习 epoch 所对应的模型配置支配在测试集上。
为每位患者分配了一个二进制标签,以表示在他们末了一次就诊时是否有 ADE。
每个病人样本都是由包含医疗变量的就诊序列组成的,删除末了一次就诊记录。
为了适应因 ADE 相对罕见而导致的种别不平衡问题,作者通过对多数类别的低度取样创建了一个平衡的演习集,个中利用了全体演习集的一个随机分区。
为相识释模型行为的可变性,作者利用 3 个随机模型和数据分区配置的均匀值天生终极结果。
在直接性能比较中,RNN-GRU 被配置成与 RETAIN 相同的多对一格式,并利用跨熵丢失函数进行演习。
默认情形下,模型输出大于 0.5 就会映射出一个正向 ADE 预测结果。

为了建立一个用于评估所研究的可阐明方法的临床基本事实,本文实验过程中统共招募了 5 位医学专家,他们拥有医学学位和丰富的临床药理学履历。
在第一阶段的构造化调查中,这些专家被哀求对通过 SHAP 和把稳力方法确定的全局医学变量进行打分,终极收录了每种方法的前 20 个变量。
评分包括从 - 5 到 5 的整数,0 不包括在内,个中 - 5 代表该变量与不发生 ADE 的可能性有非常高的关联,而 5 代表变量与发生 ADE 的可能性有非常高的关联。
然后打算出临床年夜夫变量得分的均匀值。
其次,实验哀求医学专家对 10 个有代表性的个体病人记录中的医疗变量进行同样的评分,这些记录包含了直接发生在两个 RNN 都精确预测的 ADE 之前的医疗变量的历史。
这是一个案例研究任务,受试者对与过敏干系的 ADEs T78.4、T78.3 和 T78.2 的发生有关的变量进行评分。
此外,受试者还被哀求考虑变量本身的主要性、与其他变量的相互浸染,以及过敏性疾病发生前的韶光段。
考虑韶光的方法是将相同医疗变量的历史记录作为月度窗口输入 RNN 模型。
临床年夜夫供应的均匀分数被用作评估可阐明方法对同一批(10 份)病人记录所供应的阐明的基本事实。

本文利用 Top-k Jaccard 指数比较两种可阐明方法与临床专家得分的相似性,该指数定义为交集大小除以原始凑集中排名最高的前 k 个子集的联合大小。
排名是根据从临床专家反应的均匀值或从可阐明性方法返回的 Shapley 值或把稳力贡献分数分别打算出的降序绝对分数来定义的。
末了,向医学专家展示了如何将阐明方法可视化的示例,并哀求他们思考这些阐明是否适用于现实生活中的临床情形。

2.3 验证结果

表 1 给出了 RETAIN 与 RNN-GRU 配置在 AUC 和 F1-Score 方面的性能比较,由表 1 中的结果可看出,用于天生阐明的模型在两个模型中的性能相似,RETAIN 的性能略胜一筹。

表 1. 在多对一预测配置中为所选架构指定的 ADE 预测的 ROC 曲线下的履历测试集面积和微型 F1 分数

2.3.1 全局特色主要性

图 1 和图 2 是两种方法对医学变量的前 20 个全局主要性排名,显示了均匀绝对 SHAP 值,以及数据测试集中顶级特色的均匀绝对关注值。
图 3 显示的是所述的利益干系者参与方法产生的临床专家均匀绝对分数,用于对医学变量进行评分。
为清晰起见,作者通过打算所有病人就诊中涌现特定医疗变量的每个例子的贡献系数分数的均匀绝对值,来报告把稳力贡献分数的全局主要性。

图 1. 根据 RETAIN 模型的均匀把稳力贡献得分,排名最前的医学变量。
ATC 代码前缀为 "M"

图 2. 根据均匀 SHAP 值对 RNN-GRU 模型输出的影响,排名靠前的医疗变量。
ATC 代码前缀为 "M"。
标记为 KWord 的关键词特色

图 3. 根据临床专家定义的分数,排名靠前的医疗变量。
ATC 代码前缀为'M'

表 2 给出了 SHAP 和把稳力排名与医学专家排名的 top-k Jaccard 指数比较结果,由表 2 可看出与把稳力排名比较,SHAP 在每个 k 值上都供应了与医学专家更相似的总体阐明。

表 2. 可阐明性方法和临床专家对最主要的医疗变量的排名之间的 Top-k Jaccard 相似性比较

2.3.2 过敏症 ADEs 的个别阐明的案例研究

表 3 给出了过敏症 ADEs 案例研究的结果,将 10 个有代表性的案例的均匀临床专家得分排名与把稳力和 SHAP 供应的同等阐明得分排名进行比较。
对付每个 Jaccard 指数,所选的前 k% 基于把稳力的得分与临床得分最相似。

表 3. 可阐明性方法和临床专家对单个病人记录中最主要的医疗变量的均匀 Top-k% Jaccard 相似度比较

2.3.3 对临床碰着的问题进行可视化阐明的反馈

图 4 展示了 SHAP 的韶光阐明,表 4 给出了把稳力机制的对合时光阐明。
SHAP 阐明是通过 SHAP 的特色相加的性子来供应的,以便直不雅观地看到医疗特色的存在或不存在是如何通过它们在每个韶光点的 Shapley 值的总和来定义预测的。
对付把稳力的阐明,这种可视化是不可能的,由于贡献值只反响相对主要性。

受试者得到了两种方法的描述,并被哀求回答:他们更喜好哪种阐明,他们在理解阐明时面临哪些寻衅,以及对改进阐明的建议。
首先,5 位专家中的 4 位更喜好 SHAP 供应的阐明,缘故原由是它是一个更大略的阐明,能够比把稳力阐明更有效地理解 ADE 风险的完全不雅观点。
其次,受试者的紧张顾虑是,阐明中供应的信息太多,在大多数临床上无法利用,而且阐明一个变量的缺失落是如何导致风险的也不直不雅观。
改进的建议是,在可能的情形下显示更少的医疗变量,以提高理解阐明的效率;其次,确保利用这种阐明的临床年夜夫得到详细的培训。

图 4. 向临床专家展示 SHAP 的阐明。
ADE 真正阳性预测的示例,显示用 SHAP 评估的 7 个病人就诊韶光的 ADE 风险的发展,末了一次就诊提示有 ADE。
赋值 = 0 和 = 1 分别表示没有或存在导致风险的变数

表 4. 与图 4 相对应的真阳性 ADE 阐明的示例,利用 RETAIN 模型与药物、诊断和文本数据。
访问得分和预测得分指的是相应的 ADE 代码的 softmax 概率

2.4 文章谈论

首先,本文实验表明 RETAIN 和 RNN-GRU 模型的预测性能结果相似。
这一创造对付临床有效性评估很主要,由于我们不肯望诱发一种偏见,即某一方法产生的阐明在临床上的有效性较差,这是由于模型的性能较差,而不是阐明方法本身的缘故原由。
此外,稽核图 1 和图 2 中的全局特色阐明,根据与图 3 中的临床专家排名的比较,这两个排名都是独特的,在医学上基本符合 ADE。

SHAP 为每个 top-k Jaccard 指数供应了更多的临床验证的全局阐明,这在很大程度上受到了它对没有涌如今把稳力排名中的文本特色的高排名的影响。
就单个阐明而言,把稳力为每个 top-k Jaccard 指数供应了最具有临床有效性的阐明,这表明,由于把稳力具有捕捉和利用干系领域知识的明显能力,不应该将其作为一种可阐明的方法加以否定。

末了,从图 4 和表 4 中医学专家对阐明的反馈中得到的主要启迪是,由于 SHAP 在可视化特色对预测的贡献方面具有加法特性,因此它能供应更紧凑和高效的阐明。
这种紧凑性对付效率优先的实时临床会诊是至关主要的。
另一方面,把稳力机制不能供应同样的紧凑性或加法性,因此对付详细的离线阐明或不受韶光限定的临床会诊可能更可取。

3、总结

由 ICO 和 The Alan-Turing Institute 共同发起的 "阐明用人工智能做出的决定(Explanation decisions made with AI)"(2020 年)是对利用人工智能系统的组织中的问责制和透明度哀求的实际转化的一次广泛探索。

在过去的十几年中,AI 算法 / 模型得到了巨大的发展,从 “白盒” 不断改进为“黑盒”,不管是家当界还是学术界,都可以看到大量追求 AI 决策性能提升的事情,将识别率提升 1%、将预测准确度提升 0.5%、在繁芜背景环境下提升输出准确度、提高推举排序的准确性等等。
随着数字经济的发展,国内外都越来越重视算法 / 模型的公正性、透明性、可阐明性和问责制。
为了让技能更好的做事于人类,而不是让人类越来越被算法所奴役,阐明用 AI 做出的决策相信是未来大家都会越来越关注的问题,我们也期待更多更有效、更可行的可阐明性方法、工具的涌现。

本文参考引用的文献

[1] Information Commissioner’s Office (ICO)& The Alan-Turing Institute,Explanation decisions made with AI,2020 May 2020 - 1.0.47

[2] E. Choi, M. T. Bahadori, J. Sun, J. Kulas, A. Schuetz, and W. Stewart, “Retain: An interpretable predictive model for healthcare using reverse time attention mechanism,” in Advances in Neural Information Processing Systems, 2016, pp. 3504–3512.

[3]S. M. Lundberg and S.-I. Lee, “A unified approach to interpreting model predictions,” in Advances in neural information processing systems, 2017, pp. 4765–4774.