从更深层次看,医疗保健行业存在着一些值得把稳的、长期存在的毛病,个中包括大量严重的诊断缺点、治疗中的缺点、大量的资源摧残浪费蹂躏、事情流程的低效、不公正以及患者与临床年夜夫之间沟通的韶光不敷。
渴望改进的医疗行业领袖和打算机科学家断言,人工智能在办理所有这些问题方面可能将发挥浸染。
这终极可能会成为现实,但研究职员在利用神经网络来改进医学实践的弊病方面尚处于起步阶段。
“人工智能+医药”领域有哪些机会和陷阱呢?下面将逐一详述。

人工智能与医学的融合: 现状、寻衅与未来_算法_人工智能 文字写作

临床年夜夫与人工智能

在未来,险些所有类型的临床年夜夫,从专科年夜夫到照顾护士职员,都将利用人工智能技能,尤其是深度学习。
这紧张涉及利用深层神经网络(deep neural networks,DNNs)的模式识别,它可以帮助阐明医学扫描、病理切片、皮肤损伤、视网膜图像、心电图、内窥镜检讨、面部和生命体征。
神经网络的阐明常日与年夜夫的评估比较较,绘制真阳性与假阳性率的图表,称为受试者事情特色曲线(receiver operating characteristic,ROC),其曲线下的面积(area under the curve,AUC)用来表示准确性水平。

放射学是人工智能运用中特殊受到关注的一个领域。
胸部x光是最常见的医学扫描类型,每年全天下有超过20亿例。
在一项研究中,科研职员将一种基于121层卷积神经网络的算法与4名放射科年夜夫的算法进行了比较,结果表明,该算法在11.2万多张标记的正位胸片图像中检测肺炎的准确性优于放射科年夜夫。
然而,该算法的AUC为0.76,只管比之前两种用于阐明胸片的DNN算法稍好一些,但仍远非最优。

谷歌的一个团队利用了一种算法,剖析了与上述研究相同的图像集,做出了14种不同的诊断,得出AUC的分数范围从0.63(肺炎)到0.87(心脏增大或肺萎陷)不等。
最近,在另一项干系研究中,研究表明,目前在印度医院利用的一种DNN对四种不同的胸片紧张特色进行阐明,其准确性至少与四名放射科年夜夫相同。
对付胸部x光检讨中肺癌结节的检测,DNN回顾性评估了3.4万多名患者的扫描结果,与18位放射学家比较,DNN的准确度超过了他们中的17位。
急诊室年夜夫很难准确诊断手腕骨折,但是DNN带来了显著的改进,敏感性从81%提高到92%,误诊率降落了47%。

同样,DNNs也被广泛运用于各种医学扫描中,包括骨折的骨片、年事评估、结核病的分类和椎体压缩性骨折;CT扫描肺结节、肝脏肿块、胰腺癌和冠状动脉钙化分数;脑部扫描是否有出血、颅脑外伤和急性转诊的迹象;磁共振成像;超声心动图;乳腺钼靶检讨。
一项前瞻、双盲、随机对照试验利用了真实病例,结果表明,深度学习算法阐明扫描结果的速率比放射科年夜夫快150倍(1.2秒 vs 177秒),但得出的结论是,该算法的诊断准确性低于人类的表现,这令人复苏,表明还有很多事情要做。

对付每一项研究,研究者都利用了大量的标记扫描来进行演习和随后的评估,AUC的范围从髋部骨折的0.99,到颅内出血和肝包块的0.84,再到急性神经系统病例筛选的0.56。
但由于研究方法的显著差异,无法比较不同研究之间DNN的准确性。
此外,ROC和AUC指标不一定代表临床效用,乃至也不一定是表现模型准确性的最佳办法。
就算法的准确性而言,验证其性能并不等同于证明其临床疗效。
这便是研究者所说的“人工智能鸿沟”,也便是说,一个AUC为0.99的算法如果没有被证明可以改进临床结果,那么它就没有多大代价。
在经由同行评议的研究中(表1中进行了总结),唯一的前瞻性验证研究在真实天下已经对糖尿病性视网膜病变、手腕骨折、乳腺癌转移、结肠息肉、先天性白内障进行了验证,很明显,这一领域还远远没有显示出非常高的精度,更不用说临床运用。

病理学

病理学家在采取数字化扫描方面要比放射学家慢得多——他们没有常规地将玻片转换成数字图像,也没有利用全玻片数字扫描(whole-slide imaging,WSI)来看数字切片。
而对数字化病理切片的深度学习有助于提高阐明的准确性和速率。
在一项关于乳腺癌WSI的研究中,11名病理学家的表现与多种算法的表现进行比较,结果各不相同,在某种程度上受到病理学家查看病理片韶光是非的影响。
有些算法的表现比病理学家要好。
病理学家得到了129张测试病理片,每张病理片只有不到1分钟的韶光进行检讨,这可能反响不了正常的事情节奏。
另一方面,当一个病理学专家没有韶光限定,花30个小时来检讨相同的病理片集时,其结果与算法相称。

还有一些研究评估了深度学习算法用于分类乳腺癌和肺癌的表现。
脑肿瘤极具寻衅性,和病理学家利用传统的组织学数据比较,通过测序利用肿瘤DNA甲基化信息的机器学习可以显著改进分类。
DNA甲基化产生了大量的数据,目前在临床上很少用于肿瘤的分类,但这项研究表明人工智能在未来提高诊断准确性的另一个潜力。
一种用于肺癌数字病理切片的深度学习算法不仅能够准确地对肿瘤进行分类,而且经由演习,还能够检测一些病理学家无法识别的特定驱动性基因突变的模式。

皮肤病学

在利用图像剖析对皮肤癌进行分类的算法中,将深度学习网络的诊断精度与皮肤科年夜夫的诊断精度进行了比较研究。
在一项利用了近13万张拍照和皮肤镜数字化图像的大型演习数据集的研究中,21名美国委员会认证的皮肤科年夜夫的表现至少与一种算法相匹配,该算法对恶性肿瘤的AUC为0.96,对玄色素瘤的AUC为0.94。
随后,58名国际皮肤科年夜夫对玄色素瘤皮肤癌诊断的准确性与卷积神经网络进行了比较;均匀的ROCs分别是0.79和0.86,这反响了与大多数年夜夫比较,该算法的性能更好。
第三项研究对12种皮肤病进行了算法评估,包括基底细胞癌、鳞状细胞癌和玄色素瘤,并与16名皮肤科年夜夫进行了比较,算法对玄色素瘤的AUC为0.96。
这些研究都不是在临床情景中进行的,在临床,年夜夫会进行身体检讨,并承担做出准确诊断的任务。
如果人工智能能够可靠地仿照有履历的皮肤科年夜夫,那将是一个巨大进步。

眼科学

已有许多研究比较算法和眼科年夜夫在诊断不同眼病方面的性能。
在一项利用视网膜眼底图片诊断年事干系黄斑变性(age-related macular degeneration,AMD)的研究中,DNN算法的准确率在88%到92%之间,险些与眼科专家的准确率一样高。
研究职员将一种用于阐明视网膜光学相关断层扫描(optical coherence tomography,OCT)的深度学习算法的性能与眼科年夜夫进行比较,以诊断两种最常见的视力损失缘故原由:糖尿病视网膜病变或AMD。
在超过10万张OCT图像的数据集上对算法进行演习后,对个中的1000张图像进行验证,并与6名眼科年夜夫的性能进行比较,算法的AUC为0.999。

虽然目前对视网膜OCT和眼底图像的研究紧张集中在眼病上,但最近的研究表明,这些图像还可以为大脑供应一个早期诊断痴呆(包括阿尔茨海默病)的窗口。

视网膜照片的潜在用场彷佛也已超越了眼疾本身。
DNN对28多万名患者的图像进行了心血管危险成分的评估,包括年事、性别、紧缩压、吸烟情形、糖化血红蛋白和发生重大心脏不良事宜的可能性,并在两个独立的数据集进行了验证。
AUC为0.97表明该算法能准确识别。

其他经神经网络用于不太常见的眼病包括新生儿先天性白内障和早产儿视网膜病变的评估表明,算法的准确性可与眼科专家相媲美。

心脏病学

心脏病学家利用的紧张图像是心电图(electrocardiograms,ECG)和超声心动图,这两种图像都用DNNs进行了评估。
利用机器读ECGs已有近40年的历史,但其准确性非常低。
当利用深度学习在含549个心电图的数据集里诊断心脏病时,报告的敏感性为93%,特异性为90%,与心脏病学家相称。
对付超声心动图,一组267例患者的83万多张静态图像被DNN和心脏病学家分成15个标准视图(如心尖4腔或肋下)。
对付单张静止图像,算法的整体准确率为92%,4名超声心动图专业医师的准确率为79%,但这并不能反响真实天下的结果。
一项席卷超过8000例超声心动图的更大的回顾性研究显示:算法对肥厚性心肌病(AUC, 0.93)、心脏淀粉样变(AUC, 0.87)和肺动脉高压(AUC, 0.85)的分类准确率很高。

胃肠病学

在结肠镜检讨中创造小于5毫米的腺瘤***肉或无蒂息肉对胃肠病学家来说是非常困难的。
对325例眇小息肉患者进行的首个人工智能前瞻性临床试验证明,常规结肠镜检讨的准确率为94%,阴性预测值为96%;人工智能诊断的速率是35秒,而且该算法对新手和胃肠病学专家都同样有效,不须要注射染料。
在另一项独立研究中也证明了这一结果。
这样的结果表明:机器视觉,在高倍放大下,可以准确和快速地阐明特定的医学图像,优于人类。

生理康健

全天下有3.5亿人在与烦闷作斗争,精神康健的巨大包袱值得把稳,而人工智能有能力为患者和数量远远不敷的临床年夜夫供应支持。
正在开拓的各种工具包括通过语音、面部识别、传感器和交互式谈天机器人的利用,对烦闷和感情进行数字跟踪。
脸书上的帖子已经被证明可以预测烦闷症的诊断,这些诊断后来被记录在电子医疗记录中。

机器学习已被探索用于预测哪种抗烦闷药物可能成功、烦闷的特色、预测自尽的发生,以及预测精神分裂症患者的精神病产生发火。
人工智能算法在许多其他临床科室也得到了广泛利用,如促进脑卒中、自闭症、心脏病的诊断,帮助麻醉医师在手术过程中避免低氧合等。
图2展示了人工智能在医学中运用的广度。
许多初创公司和老牌科技公司都在努力开拓自然措辞处理技能,以取代诊所就诊时对键盘和缮写职员的需求。
生动在这个领域的公司包括微软、谷歌等。

人工智能和康健系统

从理论上讲,能够预测关键结果可以使医院姑息治疗资源的利用更加有效和精确。
例如,如果可以利用一种算法来估计病人重新入院的风险,那么就可以采纳步骤来避免出院,并将资源调拨到潜在的问题上。
而根据常规的临床出院标准,这种风险是无法检测到的。
对付危重病人,对生存期的预测极有可能会帮助这个病人及其家人和年夜夫做出关于复苏、气管插管、机器通气,和其他侵入性方法的决定。
同样,人工智能预测工具也可以判断哪些患者可能受益于姑息治疗,以及判断谁有发展为败血症或传染性休克的风险。
利用电子康健记录数据,机器和深度学习算法已经能够预测从阿尔茨海默病到去世亡的许多主要临床参数 (表2)。
例如,在最近的一项研究中,深度学习在为脓毒症患者选择治疗方案时,比如升压、静脉输液、药物和剂量的选择,由“人工智能年夜夫”选择的治疗方法比由人类年夜夫选择的治疗方法更有效。
但这一结果还没有在真实的临床情景下得到验证。
只管如此,仍有许多公司已经在推广这类算法,比如Careskore,它为卫生系统供应基于EHR数据的再入院风险和去世亡率评估。

目前,还不清楚人工智能在医疗情景中预测关键结果的能力有多强,这要等到未来在真实临床环境下通过严格的统计方法和剖析得到强有力的验证后才能确定。

机器视觉

机器视觉(也称为打算机视觉),它利用来自环境传感器的数据,通过监测诸如临床年夜夫精确洗手、重症监护病房的危重病人和病人跌倒的风险等活动来促进安全,在卫生系统中引起了相称大的关注。
重症监护病房的病人利用机器通气每每是有时和低效的;在这方面,一种利用机器视觉的强化学习算法显示出了相称大的潜力。
还有正在进行的数字化手术,包括机器视觉不雅观察、手术室的设备和外科年夜夫的表现;实时、高分辨率、AI处理的患者干系解剖图像;整合病人术前的所有数据,包括完全的病史、实验室检讨和扫描。
极其风雅的显微外科手术,比如眼睛内部的手术,现在已经在人工智能的帮助下进行了。
通过利用图像重修的深度学习算法和天生的对抗网络来提高医学扫描的质量,可以显著减少在准备放射治疗时的图像采集和剖析所需韶光、减少辐射暴露。
这些改进如果得到广泛履行,将让医疗更安全、便利,本钱也得到降落。

可穿着设备

可穿着传感器可以持续监测机体所有主要旗子暗记——包括血压、心率和心律、血氧饱和度、呼吸频率和体温——未来有可能抢占先机,被大量住院患者所采取。
目前还没有针对远程监控的算法开拓和预期测试,但这值得大力研究,由于它可以在不捐躯患者和家人便利和舒适的情形低落低照顾护士本钱。

提高效率

据估计,人工智能每天要处理2.5亿多张图像,而本钱仅约为1000美元,这意味着可以节省数十亿美元。
除了可以从人工智能赞助的图像阐明和临床支持中提升生产力和改进事情流之外,还有可能减少许多后勤、行政事情的劳动力,如编码和计费、手术室和诊所预约的调度以及职员配备。
在宾夕法尼亚州的盖辛格康健中央,超过10万名患者接管了外显子组测序,结果是通过人工智能谈天机器人(Clear Genetics)供应的,它受到大多数患者的欢迎,减少了对遗传顾问的需求。
这证明了卫生系统如何能够利用人工智能工具供应繁芜的信息,而不必依赖于演习有素的职员的扩充。

人工智能和病人

2017年底,一种智好手表算法通过了FDA的检测,能检测出心房纤颤,随后在2018年,苹果公司的算法得到了FDA的批准,将该算法用于Apple Watch系列4。
光学体积学描述和加速计传感器能够获知用户在安歇和体育活动时的心率,当偏离参考范围,就会触发警报,这种算法的广泛利用,尤其是在低风险的年轻人群中——他们戴着苹果腕表——将导致大量的假阳性心房纤颤诊断,并引发不必要的医疗检讨。
比较之下,智好手表上的深度学习,可以准确地检测血液中是否有高钾,可能对肾病患者特殊有用。
通过智好手表算法读取血钾水平(表3)的观点,表示了一种算法的前景,这种算法能够供应在没有该技能的情形下无法得到或识别的信息。

人工智好手机监测到的数据正被用于多种医学诊断目的,包括皮损和皮疹、耳部传染、偏头痛,以及糖尿病视网膜病变和老年黄斑变性等视网膜疾病。
一些智好手机运用程序正在利用人工智能来监控医疗允从性,比如AiCure (NCT02243670),它让患者在吞下处方药的同时拍下自拍照。
其他运用程序利用图像识别食品的热量和营养含量。
最近的一项研究实现了连续两周的血糖检测,同时还评估了肠道微生物群、体力活动、就寝、药物、所有食品和饮料的摄入量,以及各种实验室检讨的监测,这种多模式的数据网络和剖析已经能够预测一个人对特定食品的血糖反应,这种生理模式在人群中非常不屈均,并受到肠道微生物群的驱动。
连续血糖传感器的利用表明,餐后血糖峰值常日会涌现,纵然在没有糖尿病的康健人身上也是如此。
目前还不愿定葡萄糖峰值是否意味着患糖尿病的风险更高,但有数据表明,在实验模型中,这种可能性与胃肠樊篱功能障碍存在联系。
只管如此,人工智能和多模态数据的运用来辅导个性化的饮食仍是未来虚拟医疗的一个方向。
目前,大略的算法已被用于糖尿病患者的血糖管理,虽然这有助于避免低血糖产生发火,但整合个人综合数据的智能算法可能会供应更多的信息和帮助。
通过这种办法,大多数常见的慢性疾病,如高血压、烦闷症和哮喘,理论上可以通过虚拟年夜夫得到更好的管理。
随着人工智能语音识别准确性的显著提高和智能音箱的日益遍及,很随意马虎想象通过语音平台来实现疾病管理。
终极,当一个人的所有数据和医学文献的资料库可以结合,将得到一个整体的预防方案。

人工智能和数据剖析

利用人工智能,Christiansen等人开拓了硅标记,用打算机直接识别未被标记的图像中细胞的特色。
与常规的荧光染色显微成像不同,这种机器学习算法能预测荧光标签,从而引入了“无图像”显微技能,不再像荧光染色那样会侵害和杀去世细胞,也不须要繁芜的准备事情。
此后不久,Ota等人宣布了另一种无图像流人工智能剖析方法,他们称之为“幽灵细胞检测”,以准确识别罕见细胞。
机器学习的这种运用办理了一个棘手的问题,即通过快速、高通量和精确的细胞形态分类来识别和分离罕有细胞,而不须要利用生物标记。
除此之外,打算机视觉技能已经使单细胞内40-对蛋白质和细胞器的高通量评估成为可能。

机器和深度学习面临的另一个寻衅是对基因组和其他组学生物数据集的剖析。
开源代码的算法已被开拓用于分类或剖析全基因组序列的致病性变异、体细胞癌突变、基因-基因相互浸染、RNA测序数据、甲基化、蛋白质构造和蛋白质-蛋白质相互浸染的预测、微生物组和单细胞。
虽然这些报告常日只针对单一组学,但现在正在开拓集成数据集的多组算法。
CRISPR勾引RNA活性和脱靶活性的算法预测也促进了基因组编辑的运用。

值得把稳的是,通过将转移学习算法运用于多区域肿瘤测序数据,以及通过微流体分离以单细胞分辨率剖析癌细胞的机器视觉,人工智能的利用增强了对癌症演化的理解。
这两种新的方法可能终极有助于患者的风险分层和辅导治疗。

可以说,生物神经科学影响着人工智能,反之亦然。
果蝇中的几个例子是值得把稳的。
Robie等人拍摄了4万只果蝇的***,并利用机器学习和机器视觉来绘制表型与基因表达和神经解剖学的关系图。
绘制了活动、雌性攻击性,以及其他很多特色的全脑图图谱。
在另一项研究中,利用最近邻算法来理解苍蝇是如何感知气味的,也便是它们的嗅觉算法

人工智能带来的最令人印象深刻的进步之一,是在理解人类大脑的网格细胞方面——网格细胞能够感知人体运动的速率和方向,例如机体在空间中的位置。
神经形态打算,或者说是通过对大脑进行逆向工程来制造打算机芯片,不仅能提高打算效率,还能帮助研究职员理解大脑回路,构建脑机接口。
机器视觉用迁移学习算法追踪人类和动物的行为也是另一个例子。

药物创造正在因多层面地利用人工智能而在被改进,包括用前辈的自然措辞处理技能搜索生物医学文献、用数据挖掘得到数以百万计的分子构造、设计和制造新分子、预测脱靶效果和毒性、预测试验药物的剂量,开拓大规模细胞检测。
通过机器学习预测毒性来减少临床前动物试验是有希望的。
人工智能密码学已被用于整合大型制药公司的数据集,并创造以前未知的药物相互浸染。
剑桥大学和曼彻斯特大学的机器人“伊芙”(eve)的故事,以及它如何自主创造了一种牙膏身分中含有的抗疟药物,引发了人们利用人工智能加速这一过程的兴趣。

限定和寻衅

只管人工智能技能前景光明,但也存在巨大的障碍和陷阱。
人工智能的炒作程度已经远远超过了人工智能的科学水平,特殊是当它涉及到病人的照顾护士时。
最近的一个例子是IBM Watson Health的癌症AI算法(在肿瘤学中称为Watson)。
该算法被环球数百家医院用于给癌症患者推举治疗方法,但它只是基于少量的非真实病例出身的,来自肿瘤学家输入的真实数据非常有限。
许多Watson所建议的治疗被证明是缺点的,比如建议给严重出血的病人利用贝伐珠单抗,而这是该药明确的禁忌症,已被标为“黑框”警告。
这个例子还凸显了一个有缺陷的算法可能对病人造成重大侵害,从而导致医疗事件。
机器算法诱发医源性风险的潜力是巨大的。
因此,当人工智能算法在临床实践中得到运用时,就须要进行系统的调试、审核、大量的仿照、验证和前瞻性的审查。

不平等是当今医疗保健中最主要的问题之一,尤其是在美国,它没有为所有公民供应医疗保障。
由于社会经济地位低是早亡的紧张风险成分,在“富人”而不是“穷汉”中过多地利用人工智能可能会扩大目前在康健结局方面的差距。
与这一问题交织在一起的是,由于数据集中没有包含少数群体,许多算法中都存在固有的偏见,加剧了本就存在的不公正征象。
例如,皮肤科诊断玄色素瘤的算法,由于缺少某些肤色和基因组数据,以至很难代表少数族裔。

人工智能在医学领域的未来,一个压倒统统的问题在于如何保障数据的隐私和安全。
考虑到黑客攻击和数据透露的普遍问题,人们不太乐意利用可能透露病人病史细节的算法。
此外,还存在蓄意入侵算法以大规模侵害人类的风险,比如糖尿病患者服用过量的胰岛素或刺激除颤器事情。
个人身份越来越有可能通过面部识别或基因组序列信息来确定,这进一步妨碍了隐私保护。
须要建立个人康健数据所有权、利用高度安全的数据平台,以应对若隐若现的安全问题,否则这些问题将阻碍或毁掉人工智能在医学领域发展的机会。

未来的考虑

将人工智能引入医学的过程才刚刚开始,这个领域的前景广阔,但数据和证据相对较少。
缺点算法的风险比单个医患交互的风险要高得多,但是好的算法回报是巨大的——减少缺点、低效和本钱。
因此,人工智能在医学上无一例外须要严格的研究,在同行评议的期刊上揭橥结果,在真实天下中进行临床验证,然后才能在病人诊治中推出和履行(图4)。

如今,人们普遍认为年夜夫将被机器取代,这一不雅观点说穿了与自动驾驶汽车模型类似。
大多数人会赞许,自动驾驶汽车代表了人工智能迄今为止的最高技能造诣,但“自动驾驶”这个词有误导性。
汽车工程师协会(SAE)定义了5个级别的自主权,5级表示汽车完备自主掌握,没有任何可能被人类掌握 (图5)。
现在认识到,这种充分的自治可能永久不会实现。
出于同样的缘故原由,医学不太可能超过3级,3级是一种有条件的自动化,人类确实须要对图像和数据的算法阐明进行监督。
人类康健太宝贵了,把它交给机器,除了那些风险极小的日常事务,彷佛特殊牵强。

令人愉快的是,软件已经能够快速、准确、低成本地消化和处理大量数据,而机器能够看到并做一些人类不可能做的事情。
这种能力终极将为高性能医学奠定根本,这是真正的数据驱动,减轻我们对人力资源的依赖。

来源|华信医学Nature