智东西(公众年夜众号:zhidxcom)

AI在新冠检测中失落灵了?研究创造647款AI对象不适用于临床_数据_对象 AI快讯

编译 | 健恩

编辑 | 高歌

智东西8月2日,悛改冠疫情爆发以来,天下各地的研究团队开拓了各种人工智能(AI)工具来帮助检测新冠病毒或者对新冠病毒的传染情形进行预测。
但是很不幸,来自荷兰马斯特里赫特大学和英国剑桥大学的两个研究团队分别独立对232种和415种AI工具进行测试,创造这一共647种工具没有一个适宜临床利用,有些乃至还会有害。

产生这个结果紧张与演习AI模型的数据质量有关。
开拓者采取的数据集里面每每掺杂了一些无效信息或缺点信息,导致AI工具学会了缺点的判断方法。
而开拓者每每不具备医学的专业知识,这使他们很难创造个中的缺点。

有专家认为,只有通过开拓者与临床年夜夫的配合尽力才能尽可能的避免这种缺点产生。
其余,还有专家呼吁对付此类环球突发的卫生康健事宜该当做好“数据共享”,以便各国能够充分应对。

一、共647种AI工具被测试,均不适宜临床利用

2020年3月,COVID-19开始打击欧洲,但那时的人们人们对此知之甚少,这让欧洲的医院陷入了一场危急。
荷兰马斯特里赫特大学盛行病学家Laure Wynants一贯在研究盛行病的预测工具,她说:“年夜夫真的不知道如何管理这些患者。

不过新冠疫情在欧洲爆发之前,就已经在中国肆虐了一段韶光,因此有许多来自中国的数据可供欧洲利用。
专家们认为机器学习算法能够根据这些数据进行演习,并帮助年夜夫对患者做出诊断,那么将会有大量生命被拯救。
Laure Wynants称:“在这件事上AI可以证明其实用性,我对此抱有希望。

天下各地的研究团队加紧进行研究,尤其是AI社区紧急开了发各种软件。
许多人认为这些软件可以让医院更快地诊断或分诊患者,为抗击疫情的前哨供应支持。
但是,数百种检测工具被开拓出来,却没有一个真正的产生浸染。

今年6月,英国国家数据科学和人工智能中央图灵研究所发布了一份报告,总结了其在2020年底举办的一系列研讨会上谈论的内容,这些研讨会中达成的一项明确共识是:AI工具在抗击新冠疫情的战斗中险些没有产生任何本色性的影响。
两个研究团队环绕着这些AI工具分别进行的两项研究得到的结果支持了这个结论。

Laure Wynants和她的同事研究了232种用来预测或诊断新冠肺炎患者的算法,结果创造都不适宜临床利用,只有两个算法可能在未来会对临床上的检测有所帮助。
这项研究结果以一篇评论文章的形式揭橥在英国医学杂志(British Medical Journal)上,到现在这篇文章仍在随着新工具的发布和研究者对现有工具的测试而进行更新。

对付这样的结果Laure Wynants说道:“这十分令人震荡。
我带着这样的担忧开始了这项事情,但是这个结果超出了我的预想,让我非常恐怖。

荷兰马斯特里赫特大学盛行病学家Laure Wynants

剑桥大学机器学习研究员Derek Driggs及其同事进行的另一项研究结果也得出了相同的结论。
该团队利用深度学习模型诊断新冠肺炎,并让AI通过胸部X射线和CT扫描来预测患者的患病风险。
他们研究了415种已经公开的AI工具,但是结果和Laure Wynants的创造同等,没有一个工具适宜临床利用。

这项研究结果被揭橥在Nature Machine Intelligence上,论文题目为《利用机器学习通过胸片和 CT 扫描检测和预测 COVID-19 的常见毛病和建议(Common pitfalls and recommendations for using machine learning to detect and prognosticate for COVID-19 using chest radiographs and CT scans)》。

论文链接:https://www.nature.com/articles/s42256-021-00307-0

Derek Driggs正在研究一种机器学习工具,希望能够在新冠疫情盛行期间帮助年夜夫,他说:“这次的疫情是一次对AI和医学的重大磨练,不过我认为我们没有通过这个磨练。

只管结果如此,Laure Wynants和Derek Driggs仍相信AI有潜力为年夜夫供应帮助,同时他们也担心以缺点的办法构建的AI工具不仅不会产生帮助乃至还会有害,由于这样可能会使年夜夫做出错误的诊断或低估患者的病情。

Derek Driggs称,关于机器学习模型以及它的浸染有很多炒作,人们对它们不切实际的期望匆匆使这些工具被提前投入利用。
Laure Wynants和Derek Driggs研究的数百种AI工具中的一部分已经被一些医院所利用,而有些正在被私人开拓商四处兜售。
“我担心他们可能侵害了病人。
”Laure Wynants说。

新冠疫情让很多研究职员清楚的看到他们须要改变AI工具的构建办法。
Laure Wynants谈道:“新冠疫情的盛行让这个问题成为了人们关注的焦点。

二、演习AI的数据缺点太多,让AI学习结果出偏差

研究职员创造,这些AI工具涌现的问题很多都与开拓者用来开拓工具的数据质量有关。
在新冠疫情蔓延期间,常日是治疗新冠肺炎的年夜夫网络和共享关于这一疾病的信息,包括医学扫描图像。
而这些信息和数据是工具开拓者唯一可用的公共数据集,这意味着很多是利用缺点标记的数据或未知来源的数据构建的。

Derek Driggs强调了这个他称作“Frankenstei”数据集的问题,这些数据集是从多个来源拼接在一起的,可能包含重复项。
这意味着某些工具终极进行测试的数据可能与它们演习时利用的数据相同,让它们看起来比实际上更加准确。

开拓者还有可能稠浊了某些数据集的来源,这可能会错过一些影响模型演习结果的主要特色。
比如有些人在不知不觉中利用了一个数据集,个中包含没有传染过新冠病毒的儿童的胸部扫描图,并将这些作为非新冠病毒传染病例的示例。
结果AI学会的是如何识别儿童,而不是识别新冠病毒。

Derek Driggs的小组考试测验利用一个数据集来演习自己的模型,该数据集中包含患者躺下和站起来时的稠浊扫描。
由于躺下进行扫描的患者更有可能患有重病,因此AI缺点地学会了从一个人的站立或躺下来预测患病严重程度。

还有一种情形,研究者创造一些AI会对某些医院用来标记扫描结果的文本字体产生反应,结果来自吸收重症患者医院的字体成为了预测新冠肺炎患病风险的指标。

事后看来,这些缺点彷佛很随意马虎被创造,如果开拓者知道它们,也可以通过调度模型来进行修复。
但是,许多工具要么是由缺少医学专业知识的AI研究员开拓的,他们很难从中创造数据毛病;要么是由缺少数学技能的医学研究职员开拓的,他们很难用专业知识来填补这些数据毛病。

Derek Driggs还提到了一个更奇妙的缺点,那便是合并偏差(incorporation bias),或者说是数据集被标注时引入的偏差。
例如,许多医学扫描是根据放射科年夜夫对付它们是否显示出新冠病毒的判断来标记的,但是这会将一些年夜夫的偏见嵌入或合并到数据集中。
Derek Driggs说,用PCR测试的结果来标记医学扫描会比仅听年夜夫的见地要好得多,但是在医院里每每没那么多韶光去统计这些细节。

Laure Wynants称这些已知的缺点并没有阻挡个中一些工具被匆忙投入临床实践,目前尚不清楚哪些正在被利用,也不知道它们被如何利用。
医院有时会说他们仅将工具用于研究目的,这让研究者很难评估年夜夫对这些AI工具的依赖程度。

Laure Wynants曾哀求一家发卖深度学习算法的公司分享有关其方法的信息,但是并没有得到回应。
后来她从与这家公司有关的研究职员那里得到了几个已经揭橥了的模型,不出任何意外,这些模型都有着很高的偏见风险。

“我们实际上并不知道这家公司都做了哪些事情。
乃至一些医院还与医疗AI的供应商签了保密协议。
”Laure Wynants说。
当她问年夜夫利用的什么算法或软件时,会被奉告医院不许可年夜夫将这些说出去。

三、AI开拓者要与临床年夜夫互助,专家呼吁“数据共享”

更加完善的数据可能会对办理这个问题有所帮助,但是在危急期间,这个哀求很难做到。
Derek Driggs称,更主要的是要充分利用已经拥有的数据集,该当让AI开拓团队与临床年夜夫进行更多互助。
开拓者要分享他们的模型,并公开他们是如何演习这些模型的,以便其他人可以测试它们并以此为根本来精确的利用。

“这是我们现在能够做到的几件事,它们可能会办理我们创造的50%的问题。
”Derek Driggs说。

总部位于伦敦的环球康健研究慈善机构Wellcome Trust的临床技能团队卖力人Bilal Mateen说,如果格式标准化,获取数据也更加随意马虎。

Laure Wynants、Derek Driggs和Bilal Mateen都创造的一个问题是,大多数开拓者都急于开拓自己的模型,而不是和他人互助或改进现有模型。
这样造成的结果是全天下的开拓者集体努力创造出了数百种无用的工具,而不是共同创造出几种经由演习和测试的工具。

Laure Wynants说:“这些模型非常相似,它们都利用了险些相同的技能,只是进行了轻微的调度,输入险些相同的数据,并且犯了险些同样的缺点。

“从某种意义上说这是研究领域的老毛病了。
学术研究职员险些没有任何动机去分享事情履历或验证现有结果。
将技能从实验室事情台带到病床边的末了一英里是没有回报的。
”Bilal Mateen说。

为理解决这个问题,天下卫生组织正在考虑签订一份紧急数据共享协议,该协议将在国际康健危急期间生效。
这会让研究职员更随意马虎地跨境共享数据。
在6月份英国举行G7峰会之前,来自参与国的领先科学团体也呼吁“准备好数据”,为未来的突发卫生事件做好准备。

这样的呼吁听起来有点暗昧不清,并且带有着一丝一厢宁愿的想法。
在新冠疫情爆发之前,这类共享数据的举措已经结束。

Bilal Mateen认为,新冠疫情让很多事情重新提上了议程。
他说:“除非我们都认同在办理共享数据这一问题之前要先战胜数据不能共享背后的难题,否则我们注定要重复同样的缺点。
如果这样的缺点再次发生,将是不可接管的,忘却这次环球疫情的教训是对逝者的不尊重。

结语:AI在抗疫大战中暴露短板

新冠疫情是一场席卷环球的灾害。
抗击新冠疫情不是某个人、某个团体或某个国家的任务,而是全人类都要参与的一场斗争。

这场斗争中,AI被寄予了厚望,浩瀚研究团队参与个中开拓各种AI工具,希望能够帮助年夜夫来检测和诊断新冠。
但是事实证明,这些AI工具并没有起到真正有效的浸染。
不过,这并不能否定AI在疾病诊断方面的潜力。

要让AI实现对新冠病毒的检测,一方面须要更加准确完善的数据集对它进行演习,另一方面也须要AI工具的开拓者与医学领域的专家进行互助,以便能够更加有效的创造个中存在的漏洞。

此外应对此类环球的康健危急还须要各国共同创造出一个开放的研究环境,让各种干系的研究数据能够更加自由的在各国的科研团体之间流动,这样才能让研究成果更加有效的用于对疾病的抗争中。

只要演习办法得当,AI能够更高效、更准确的对疾病做出诊断,但是很可惜一些被寄予厚望的AI工具在新冠疫情的斗争中并没有表现出应有的能力。
这次环球疫情带来的教训或许能让AI开拓者和干系组织机构认识到个中的不敷,为下次环球可能涌现的新危急做好准备。

来源:MIT Technology Review