研究者·瞭望丨人工智能数据采集在慢乙肝真实世界研究中的应用_数据_数据采集
点击蓝字
关注我们
曾涛 李青海 崇雨田 李新华
编
者
按
剑南山水,千门入画。2023年12月22-24日,由中华医学会、中华医学会肝病学分会和传染病学分会联合主理的“第二十一次全国病毒性肝炎及肝病学术会议暨2023年中华医学会肝病学分会年会、中华医学会传染病学分会年会”在天府之国成都隆重召开。本次会议是我国病毒性肝炎及肝病、以及传染性疾病领域海内水平最高的学术盛会,大会约请国内外著名学者就目前病毒性肝炎和肝病学以及传染病学研究的最新进展及热点问题进行学术报告,并开展专题研讨,全方位展现学科领域的最新造诣和发展趋势。与此同时,大会论文报告环节中呈现出新一代青年学者的精良学术成果,他们孜孜以求、克意进取的学术探索精神勉励着吾辈不断向更高的目标攀登。为此,本刊特开辟“研究者·瞭望”专题,集中为广大同道呈现肝病领域新一代青年学者的风采!
高质量且高效的数据采集是真实天下大样本、多中央慢性乙型肝炎(CHB)行列步队研究的根本,然而目前CHB患者临床数据采集和处理存在事情冗长、低效、繁琐且数据质量不均一的问题,这一寻衅紧张表现在两个方面:1)住院电子病历中存在大量非构造化数据,如考验、检讨报告、出院小结和“一诉五史”等病历资料,手工提取并转化为构造化数据的人力本钱巨大且随意马虎出错;2)多中央的真实天下研究中,各中央的数据存在一定的差异性,部分中央的数据以图片或纸质文件形式保存,而部分中央以电子表格数据库形式保存等。近年来,随着人工智能(AI)技能的发达发展,诸如自然措辞处理(NLP)技能可以实现非构造化数据中关键信息的提取,将其转化为构造化数据;光学字符识别 (OCR)技能通过识别与提取图片、扫描件中的笔墨信息,进而实现数据电子化采集[1-2]。基于以上问题,中山大学附属第三医院联合精点数据设计并验证了一套AI数据采集工具,可帮忙临床医师提高数据采集的效率。
研究整体设计
本研究系统集成了OCR技能进行纸质数据识别与提取,数据录入职员可通过拍照、笔墨识别实现数据电子化;针对非构造化数据,演习了一个NLP模型(图1),通过语义理解和词典匹配,将其转换为构造化数据,然后通过模型自学习的关联规则将构造化数据映射并自动添补至eCRF表。针对临床研究数据采集场景,依据中不同的角色与职责梳理出事情流程图。根据事情内容所需的专业背景不同,设置了5个用户角色:研究者、数据管理员、数据库开拓职员、数据录入职员和数据核查职员。本研究乙肝患者真实天下研究数据采集全流程如图2所示。
图1. NLP模型建模过程
图2. 真实天下研究数据采集流程。深蓝色步骤在REDCap中完成,橙色部分为AI工具完成。
通过将OCR和NLP等人工智能模型嵌入REDCap软件,形成智能EDC采集系统,帮助数据录入职员将非构造化数据进行采集,从而提高录入职员的录入效率(图3)。对付构造化数据,通过OCR识别信息,并将其转换为文本文件,然后填写到eCRF中。对付非构造化数据,通过OCR进行文本化,然后通过NLP映射到构造化数据并添补到eCRF中(图4-5)。
图3 乙肝病例数据采集与管理工具界面
图4. 采取NLP模型智能化填写CRF表单
智能化填写CRF表单,采取NLP数据模型可自动从文本数据中提取出构造化数据。
图5. 数据核查
支持在redcap中查看原始图片,方便进行数据核查
本研究的OCR笔墨识别紧张基于百度的PaddlePaddle深度学习平台开拓的开源OCR工具,支持各种类型的文本,包括印刷体、手写体和场景文本等准确识别,它于2020年5月14日在GitHub正式发布,经由多次迭代,识别准确率已达到99.5%以上,已具备生产利用代价[3]。本研究利用的NLP模型为ERNIE-Layout模型,用于理解与转化临床半构造化和非构造化数据。ERNIE-Layout是百度提出的跨模态文档理解的开源模型,基于布局知识增强技能,领悟文本、图像、布局等信息进行联合建模,可实现对多模态文档(如文档图片、扫描件等)深度理解与剖析[4]。本研究的模型演习数据采取中文医学命名实体识别(CMeEE)数据集, 来自于中文医疗信息处理评测基准CBLUE)3.0版本,包含演习集数据15,000条,验证集数据5,000条和测试集数据3,000条。
结果与剖析
本研究采集了3681个患者随访10年的CHB临床行列步队数据用作测试评估AI工具性能。研究招募了4名测试职员进行数据录入事情,并比拟其与AI工具录入的效率及准确率。结果显示,AI工具并辅以复核的情形下,数据采集与人工采集拥有相同的均匀准确率(P<0.05),达到98.66%。AI录入一份病历数据加上人工核验均匀韶光为18.30 min,传统手工录入方法的74.65 min,均匀每份病历采集韶光节省了75.49%(P<0.05)。
传统的人工数据采集办法须要事情职员对每条数据进行录入、修正和源数据核查事情,呆板繁琐的重复性劳动大大加重了多中央研究的难度和人力本钱。而利用AI工具赞助数据采集,仅须要人工采集部分数据用作AI模型演习与优化,即可创建流水线实现数据批量化处理,节省人力的同时也大幅缩短了数据采集所需韶光。此外AI工具在成功支配后可以不计次数重复利用,面向患者数量较大的多中央数据采集需求,仍旧支持批量处理,把紧张耗时压缩在源数据核查步骤,这对付处理大量多中央患者数据的临床研究至关主要,节省了大量的韶光本钱,降落了数据采集的难度。
此外,在录入准确性方面,本文实验比拟了6种不同数据类型的缺点率,结果显示,AI录入的与人工复核结合利用的情形下,准确率可比拟人工录入办法,未来可用于更换传统人工操作,解放人力。另一方面,通过将纸质数据电子化,可保留原始数据的完全性,并通过NLP技能实现了非构造化数据的构造化,使得数据更易于管理和回溯。这对付乙肝患者的长期随访和治疗效果评估供应了可靠的数据根本。
总结与展望
本研究创新地将OCR和NLP等人工智能模型融入REDCap软件,为数据采集供应了新功能:(1)通过OCR笔墨识别模型实现了非电子数据采集的便捷化,使患者在其他医疗构培养医的纸质病历数据能够轻松上传和电子化转换;(2)借助NLP模型,实现了文本数据的自动构造化处理,并映射至eCRF。AI模型显著提高了数据采集效率,为大规模、多中央的数据采集供应了支持。此外,通过结合OCR和NLP技能,研究为多中央数据集成供应了可行的办理方案,为未来慢性病研究奠定了技能根本。
参考文献:(高下滑动查看更多)
1. Yousefi A, Mastouri N, Sartipi K. Scenario-oriented information extraction from electronic health records[C], Proceedings of the Twenty-Second IEEE International Symposium on Computer-Based Medical Systems, 2009.
2. S. Karthikeyan, A. G. S. de Herrera, F. Doctor, et al. An OCR Post-Correction Approach Using Deep Learning for Processing Medical Reports[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2022, 32(5): 2574-2581.
3. Du Y, Li C, Guo R, et al. PP-OCR: A Practical Ultra Lightweight OCR System[J]. ArXiv, 2020.
4. Peng, Q., Pan, Y., Wang, W., et al. ERNIE-Layout: Layout Knowledge Enhanced Pre-training for Visually-rich Document Understanding[J]. ArXiv, 2022, abs/2210.06155.
通讯作者简介
李新华
医学博士、主任医师、博士研究生导师
中山大学附属第三医院传染科副主任(疑难肝病亚专科)
中山大学附属第三医院罕见病中央副主任
中华医学会肝病分会遗传代谢性肝病协作组委员
广东省医师协会肝病医师分会副主任委员
长期从事传染及代谢性肝脏疾病机制研究
通讯作者简介
李青海
高等工程师,广州工信委人工智能专家库成员,国家重点研发操持慢病临床研究数据标准项目骨干成员,主持广州市人工智能重大科技攻关项目1项,2025中国制造基金1项,获大数据/人工智能类授权发明专利18项
第一作者简介
曾涛
中山大学附属第三医院内科学博士研究生
往期推举
研究者·瞭望丨血脂水平变革在乙肝肝硬化失落代偿期患者中的临床意义
研究者·瞭望丨ALT正常、HBV DNA低中水平复制的慢性HBV传染者的肝组织病理学病变更严重
声明:本文仅供医疗卫生专业人士理解最新医药资讯参考利用,不代表本平台不雅观点。该信息不能以任何办法取代专业的医疗辅导,也不应被视为诊疗建议,如果该信息被用于资讯以外的目的,本站及作者不承担干系任务。
来源:《国际肝病》编辑部
本文系作者个人观点,不代表本站立场,转载请注明出处!