北京市药监局宣告人工智能医疗器械分娩质量治理规范检查指南_算法_数据
近年来,北京市医疗东西家当在科技发展、政策推动和行业改造等多重成分勾引下发达发展,特殊是代表科技发展前沿的人工智能产品加快呈现,获批数量连续多年居全国首位。北京市药监局紧盯家当发展热点,聚焦人工智能领域,组织来自监管部门和企业、行业专家成立了专门课题组,结合医疗东西法规、标准哀求和本市监管实际,深入研究、广泛调研、谨严体例,完成该指南的体例,旨在强化企业监管辅导、提升行业做事质效。
该指南从影响人工智能医疗东西全生命周期质量安全的关键环节出发,对干系产品研发、生产及售后利用过程中的需求剖析、数据网络、算法设计、验证与确认、更新掌握、可追溯剖析、持续学习、自适应学习等方面的监管哀求、检讨重点、检讨方法等均做出详细规定。在辅导监管职员“查什么、怎么查、查出问题如何处理”的同时,辅导北京市干系企业科学完善质量管理体系,加强生产过程管理,积极提升北京市人工智能医疗东西质量安全保障水平。
北京市药监局将以该指南的发布为契机,负责落实2024年政府事情报告提出的“大力推进当代化家当体系培植,加快发展新质生产力”这一重大任务,持续做好对人工智能医疗东西的科学监管。同时还紧盯行业前沿和家当热点,连续研究制订干系检讨指南文件,不断完善标准统一、信息畅通、衔接有序、协作有力的医疗东西生产监视事情机制,有效促进北京市医疗东西家当高质量发展。
北京市人工智能医疗东西生产质量管理规范检讨指南(2024版)
人工智能医疗东西是指基于“医疗东西数据”,采取人工智能技能实现其预期医疗用场的医疗东西,包括第二类、第三类人工智能独立软件和含有人工智能软件组件的医疗东西(包括体外诊断医疗东西)。
本指南结合人工智能医疗东西特点,依据《医疗东西生产质量管理规范》《医疗东西生产质量管理规范附录独立软件》《医疗东西生产质量管理规范独立软件现场检讨辅导原则》等文件,明确了对人工智能医疗东西的生产质量管理体系哀求。旨在帮助北京市医疗东西生产监管职员增强对人工智能医疗东西产品生产监管的认知,辅导和规范全市医疗东西生产监管职员对人工智能医疗东西注册人、受托生产企业(以下简称“生产企业”)的监督检讨事情。同时,为干系生产企业开展生产管理活动供应参考和依据。
本指南中引用的国家干系法律、法规、规章、标准、检讨指南等版本发生变革时,要以当时实行的最新版为准。随着法规、逼迫性标准体系的不断完善以及科技能力、认知水平的不断发展,必要时,北京市药品监督管理局将重新研究修订,以确保本指南持续符合哀求。
一、机构和职员
人工智能医疗东西具有对数据和算法依赖性高的特点,数据处理和算法干系的机构和职员是关键性要素,生产企业应定义干系职员角色、明确职责和资质哀求,可参照IEEE Std 2801-2022医学人工智能数据集质量管理推举标准。
(一)数据处理职员:生产企业应确立一名数据管理代表全面卖力数据处理干系事情。数据处理职员一样平常包括首席研究员、数据管理员、采集职员、低级标注职员、审核职员、仲裁人员等,标注过程中处理同一例数据时,低级标注、审核、仲裁人员之间不可相互兼任;应明确职员的职责、任职资质、选拔、培训、考察哀求,如职称、事情年限、事情履历等;应有任命、培训(如培训材料、培训方案)及考察记录(如方法、频次、指标、通过准则、同等性)等;对付生产企业外部聘任职员的还应记录聘任、紧张执业机构、培训等信息,明确其资质是否知足岗位哀求。
(二)算法干系职员:生产企业应建立具有算法研发能力且稳定的算法团队,确立一名团队卖力人全面卖力算法干系事情。算法团队职员一样平常包括:算法研究职员、算法工程职员、算法测试职员、算法支配职员,上述职员中同一算法测试职员不可与其他角色兼任。若采取外部委托研发或者直策应用开源项目进行算法的研发,则必须有算法测试职员和支配职员,并对算法干系的质量卖力。
二、厂房与举动步伐
人工智能医疗东西的数据集是进行开拓的要素,对采取自建数据集的产品,数据预处理、洗濯、标注等操作的场所为真实场所或仿照场所,真实的场所应明确环境条件(如空间、照明、温度、湿度、气压等),如有分外哀求应保持干系记录,采取仿照场所环境可根据产品实际情形调度仿照程度,需详述调度情由并予以记录;对采取公开数据集、第三方数据集,则需对数据集开拓方所能供应范围内的园地信息进行记录。
三、设备
生产企业应结合自身产品的实际情形,在产品生存周期过程供应充分、适宜、有效的软硬件设备、开拓测试工具、网络资源以及病毒防护、数据备份与规复等保障方法。
(一)数据集构建所用设备
1.数据采集设备管理应明确兼容性和采集特色等哀求,设备的兼容性记录应包括采集设备的名称、规格型号、制造商、性能指标,若无需考虑兼容性哀求应详述情由并予以记录。采集特色需明确采集设备的采集办法(如常规成像、增强成像)、采集协议(如MRI成像序列)、采集参数(如CT加载电压、加载电流、加载韶光、层厚)、采集精度(如分辨率、采样率)。数据采集若利用历史数据,需列明采集设备及采集特色哀求,并开展数据采集质量评估事情。
2.企业应配备实行数据集干系任务须要的资源,如访问、读取数据、预览、检索等任务须要的软件、硬件、网络配置。测试集应配备封闭管理须要的软件、硬件、网络配置,明确管理哀求。
3.数据标注应明确标注软件(包含自动标注软件)的哀求,明确标注软件的名称、规格型号、完全版本、制造商、运行环境、软件确认等哀求并予以记录。
4.若需利用特定的外部设备获取附加的信息(如病理结果、考验结果、数据模态转化、多模态配准、体积丈量、三维打印等),设备的规格型号、计量信息(如需计量)等应确认哀求并予以记录。
5.数据整理所用软件工具(含脚本)均需明确名称、规格型号、完全版本、制造商、运行环境,并进行软件确认。
(二)算法研发所用设备
1.应明确定义并记录进行算法演习、算法测试、算法支配所用到做事器算力的范例配置(如GPU型号和数量、CPU型号和数量、内存大小、网络带宽等)。
2.应明确定义并记录算法演习所用的操作系统、开拓环境(如编程措辞及版本、集成开拓环境及版本、web做事及版本、支持软件及版本等)、算法架构(如根本打算包、GPU指令集、集成开拓环境插件等)。
3.应明确定义并记录算法测试所用的操作系统、开拓环境、算法框架、根本做事等,若与其他外部设备进行合营或作为软件组件集成到其他医疗东西中,明确解释外部设备和东西的规格型号。
4.应明确定义并记录算法支配运行的操作系统、开拓环境、算法框架、根本做事、虚拟机、运用容器引擎等。
四、设计开拓
生产企业应结合质量管理体系哀求,建立人工智能医疗东西生存周期过程,开展与软件安全性级别相匹配的产品质量担保事情,确定需求剖析、数据网络、算法设计、验证与确认、支配运行、更新掌握等活动哀求,将风险管理、可追溯剖析(需包含算法和数据)贯穿于生存周期全程,形成记录。
(一)需求剖析
1.需求剖析应该以用户需求与风险为导向,结合产品的预期用场、利用场景、核心功能,综合剖析法律、法规、规章、标准、用户、产品、功能、性能、接口、用户界面、网络安全、警示提示等需求,明确风险管理、可追溯性剖析、数据网络、算法性能、利用限定、现成软件(现成算法)的验证与确认等活动哀求,形成相应文件。
2.数据网络应该确保数据来源的合规性、充分性和多样性,数据分布的科学性和合理性,数据质控的充分性、有效性和准确性。
3.算法性能需结合医疗实际和产品定位,明确假阴性与假阳性、重复性与再现性、鲁棒性/健壮性、实时性等性能指标的适用性及其哀求,并兼顾不同性能指标的制约关系。
4.利用限定需考虑产品禁用、慎用等场景,准确表述产品利用场景,供应必要警示提示信息。
(二)数据网络
1.数据采集
数据采集应该明确采集设备、采集过程、数据脱敏等质控哀求,并建立数据采集操作规范。若利用历史数据,应该结合样本规模、采集难度等影响成分合理选择数据采集办法,明确数据筛选标准并对采集的数据进行质量评估。
采集的数据应进行数据脱敏以保护患者隐私,数据脱敏需明确脱敏的类型(静态、动态)、规则、方法以及脱敏内容的确定依据。如利用历史数据,企业吸收的数据应为脱敏后的数据,不得有敏感数据流入企业。
2.数据整理
数据整理应基于原始数据库明确数据洗濯、数据预处理的质控哀求。数据洗濯应该明确洗濯的规则、方法、结果,数据预处理应该明确处理的方法(如滤波、增强、重采样、尺寸裁剪、均一化等)、结果。数据经整理后形成根本数据库,需明确样本类型、样本量、样本分布等信息。
3.数据标注
数据标注应该明确标注资源管理、标注过程质控、标注质量评估等哀求,并建立数据标注操作规范。标注过程质控包括职员职责(如职员资质、职员数量、职责分工)、标注规则(如临床指南、专家共识、专家评议、文献剖析)、标注流程(如标注工具、标注形式、标注轮次、标注步骤、结果审核)、不合处理(如仲裁人员、仲裁办法)、可追溯性(如数据、操作)等哀求。数据经标注后形成标注数据库,样本类型可分为数据块(如图像区域、数据片段)、单一数据(由多个数据块组成)、数据序列(由多个单一数据组成)。标注数据库的样本量、样本分布等哀求及风险考量与根本数据库相同。
数据标注若利用自动标注软件,结果不得直策应用,应由标注职员审核后方可利用。
4.数据集构建
基于标注数据库构建演习集、调优集(若有)、测试集,应该明确演习集、调优集、测试集的划分方法、划分依据、数据分配比例。演习集原则上需担保样本分布具有均衡性,测试集、调优集原则上需担保样本分布符合真实情形,演习集、调优集、测试集的样本应两两无交集并通过查重予以验证。
数据扩增(若有)应该明确扩增的工具、范围、办法(离线、在线)、方法(如翻转、旋转、镜像、平移、缩放、滤波、天生对抗网络等)、倍数,在线扩增亦需予以记录,扩增需考虑数据偏倚的影响及风险。原则上不得对测试集进行数据扩增,对抗测试除外。
数据经扩增后应该形成扩增数据库,需列表比拟扩增数据库与标注数据库在样本量、样本分布(注明扩增倍数)等差异,以证明扩增数据库样本量的充分性以及样本分布的合理性。
(三)算法设计
1.算法选择
算法选择应该供应所用算法的名称、类型(如有监督学习、无监督学习,基于模型、基于数据,白盒、黑盒)、构造(如层数、参数规模)、输入输出数据类型、流程图、算法编程框架、运行环境等基本信息,并明确算法选用依据,包括选用的情由和基本原则。若组合利用集成学习、迁移学习、强化学习等,需供应算法基本信息以及算法选用依据。
2.算法演习
算法演习应该基于演习集、调优集进行演习和调优,考虑评估指标、演习办法、演习目标、调优办法、演习数据量—评估指标曲线等哀求。
3.算法性能评估
算法性能评估应该基于测试集对算法设计结果进行评估,综合评估假阴性与假阳性、重复性与再现性、鲁棒性/健壮性、实时性等适用性,以证明算法性能知足算法设计目标,并作为软件验证、软件确认的根本。若利用第三方数据库开展算法性能评估,应该供应第三方数据库的基本信息(如名称、创建者、数据总量等)和利用情形(如测试数据样本量、评估指标、评估结果等)。
对付黑盒算法,应开展算法性能影响成分剖析,并供应算法性能影响成分剖析报告,明确影响算法性能的紧张成分及其影响程度,以及产品利用限定和必要警示提示信息。
(四)验证与确认
1.软件验证
软件验证应该基于软件需求予以开展,担保软件的安全有效性,并作为软件确认的根本。
2.软件确认
软件确认测试应该基于用户需求,由预期用户在真实或仿照利用场景下予以开展,涵盖现成软件、网络安全的测试哀求,确定毛病管理、风险管理、可追溯性剖析、评审等活动哀求,形成用户测试记录、测试报告以及评审记录并经批准,应时更新并经批准。可追溯性剖析此时应该剖析用户测试与用户需求、用户测试与风险管理的关系。同时,开展算法性能比较剖析,若各种测试场景(含临床评价)算法性能变异度较大,详述缘故原由并基于剖析结果明确产品利用限定和必要警示提示信息。末了,结合算法演习、算法性能评估、临床评价等结果开展算法性能综合评价,针对演习样本量和测试样本量过少、测试结果明显低于算法设计目标、算法性能变异度过大等情形,对产品的适用范围、利用场景、核心功能进行必要限定。
基于测评数据库开展的,除知够数据库通用哀求(如数据管理、网络安全与数据安全、可扩展性)外,还应知足威信性、科学性、规范性、多样性、封闭性和动态性哀求。不应利用公开数据库作为测评数据库。
(五)支配运行
算法发布和更新时应在干系文件列明算法关键模块的功能、接口、版本、存储形式(如pt、pth、bin、onnx、pb、keras、ckpt、pkl等);紧张功能组件模块及相互依赖和接口关系;软件的前后端支配办法;对根本软件和硬件的依赖和兼容性哀求等。
(六)更新掌握
人工智能医疗东西若发生算法更新、软件更新,均应该按照质量管理体系的哀求,开展与算法更新、软件更新的类型、内容和程度相适宜的验证与确认活动,将风险管理、可追溯剖析贯穿于更新全程,形成记录。此外,算法更新、软件更新均需考虑引入回滚机制,以担保医疗业务的连续性,特殊是对风险较高的软件。
软件版本掌握应该基于合规性哀求确定软件版本命名规则,涵盖自研软件、现成软件、算法(算法驱动型更新或数据驱动型更新)网络安全的全部软件更新类型,明确并区分重大软件更新和轻微软件更新,并符合软件版本命名规则的哀求。
对数据集进行用场(如演习、调优、测试、验证等)的变更,应按照数据集管理体系的哀求进行确认形成记录。高掌握等级的数据集停用后数据可流入低掌握等级的数据集,不许可低掌握等级的数据集向高掌握等级流动(测试集数据可变更为演习和调优利用,不可将演习集、调优集的数据变更为测试利用)。数据集数据的变更,应按照建立数据集过程相同的质量体系进行管理,并记录更新内容和版本变更。
(七)网络与数据安全
人工智能医疗东西全生命周期过程中应该考虑网络安全与数据安全问题,对网络与数据安全过程的掌握哀求形成文件,包括数据转移哀求,数据整理、数据集构建、算法演习等内部活动开展过程中的数据污染防护方法,以及数据标注、软件确认等涉及外部活动开展过程中的数据污染防护方法及数据接口哀求。
各数据库(集)均需进行数据备份,明确备份的方法、频次、数据规复方法。
数据库和数据集访问应明确授权访问管理哀求,形成文件及记录。
人工智能医疗东西软件应明确算法的软件安全性级别(轻微、中等、严重)并详述剖断情由。应形成算法风险管理资料,明确过拟合与欠拟合、假阴性与假阳性、数据污染与数据偏倚(如数据扩增引入的偏倚)、中外差异等风险的掌握方法。
(八)可追溯性剖析
可追溯性剖析应该建立掌握程序,涵盖软件、现成软件、算法及数据、网络安全的掌握哀求,形成软件及算法的可追溯性剖析报告。利用可追溯性剖析工具担保软件开拓、软件更新过程知足可追溯性哀求,并贯穿于软件生存周期全过程。供应算法可追溯性剖析报告等干系文件及记录,即追溯算法需求、算法设计、算法实现、算法验证与确认、风险管理、数据集的管理。若无单独文档可供应软件可追溯性剖析报告,并注明算法可追溯性剖析所在位置。
五、采购
生产企业应确保采购物品符合法律法规的干系规定和国家逼迫性标准的干系哀求,包括数据来源及以开源办法得到的软件等。
数据来源应该供应数据来源的合规性声明,列明数据来源机构名称、所在地域、数据网络量、伦理批件(或科研互助协议)编号等信息。
产品支配运行所需的软硬件,应该记录采购信息,个中以开源办法得到的软件组件、根本包、根本软件、集成环境等,应列明来源、***地址、版本、开源协议等信息。
六、发卖和售后做事
人工智能医疗东西软件在产品设计具有持续学习/自适应学习能力的,须要在软件支配阶段确认自学习功能已关闭,并供应记录。
七、不良事宜监测、剖析和改进
上市后须要持续开展算法泛化能力研究的,须要结合用户投诉、不良事宜和召回等情形识别前期未预见的风险,并采纳有效的风险掌握方法将风险降至可接管水平。此外,根据产品更新需求,经评估后履行更新活动,开展与之相适宜的验证与确认活动,担保算法泛化能力持续知足用户需求。
附件:1.设计开拓检讨要点举例解释
2.人工智能医疗东西常用术语
3.参考文献
附件1
设计开拓检讨要点举例解释
1.算法策划
算法开拓策划阶段,应对算法需求、数据网络、算法设计、验证与确认、算法更新、风险管理、可追溯性剖析等过程进行算法生命周期策划,输出《算法开拓操持书》。
2.算法需求
算法需求剖析以用户需求与风险为导向,结合产品的预期用场、利用场景、核心功能,综合剖析法律、法规、规章、标准、用户、产品、功能、性能、接口、用户界面、网络安全、警示提示等需求,重点考虑数据网络、算法性能、利用限定等哀求。输出《算法需求规范》。
3.数据网络
3.1 数据入选、打消标准
在《算法需求规范》中明确算法数据入选、打消标准。
3.2 数据来源及质控
数据网络应确保数据来源的合规性,数据质控的充分性、有效性、准确性。
3.3数据采集
数据采集需考虑采集设备、采集过程、数据脱敏等质控哀求,并建立《数据采集操作规范》。
3.4数据整理
脱敏数据汇总形成原始数据库,不同模态的数据在原始数据库中需加以区分。数据整理基于原始数据库考虑数据洗濯、数据预处理的质控哀求。输出《数据整理规范》,同时《数据整理规范》中需明确样本类型、样本量、样品分布等信息,数据经整理后形成根本数据库。
3.5 数据标注
3.5.1 数据标注前应建立《数据标注操作规范》,明确标注资源管理、标注过程质控、标注质量评估等哀求。数据经标注后形成标注数据库。
3.5.2 数据标注可利用自动标注软件,但自动标注结果不得直策应用,应由标注职员审核后方可利用;同时,自动标注软件亦需明确名称、型号规格、完全版本、制造商、运行环境等信息,并进行软件确认。
3.6 数据集构建
3.6.1 基于标注数据库构建演习集、调优集、测试集,明确演习集、调优集、测试集的划分方法、划分依据、数据分配比例,输出《数据集构建标准》。
3.6.2 演习集应该担保样本分布具有均衡性,测试集、调优集应该担保样本分布符合临床实际情形,演习集、调优集、测试集的样本应该两两无交集并通过查重予以验证。
3.6.3 为办理样本分布不知足预期的问题,可对演习集、调优集小样本量数据进行扩增,原则上不得对测试集进行数据扩增,对抗测试除外。数据扩增需明确扩增的工具、办法(离线、在线)、方法(如翻转、旋转、镜像、平移、缩放、滤波、天生对抗网络等)、倍数,扩增倍数过大应考虑数据偏倚的影响及风险。若采取天生对抗网络进行数据扩增,需明确算法基本信息以及算法选用依据。
3.6.4 数据经扩增后形成扩增数据库,需列表比拟扩增数据库与标注数据库在样本量、样本分布(注明扩增倍数)等差异,以证明扩增数据库样本量的充分性以及样本分布的合理性。
3.7 数据库管理
3.7.1数据库管理应遵照真实性、完全性、可用性、合规性、可追溯性、临床代表性、时效性、安全性、准确性9大原则。
3.7.2应定期对逻辑数据库的数据以及文件数据进行备份,备份文件保存在不同机架的机器磁盘上以提高备份的安全性。
3.7.3在全体数据转移过程中,应该明确数据转移方法、数据防污染方法以及数据销毁办法。
4.算法设计
人工智能算法设计紧张考虑算法选择、算法目标设定剖析、算法演习、算法性能评估等哀求,形成《算法设计解释书》。对付黑盒算法,算法设计应开展算法性能影响成分剖析,同时与现有医学知识建立关联,以提升算法可阐明性。
5.验证与确认
算法演习过程中,须要明确算法演习环境,应该对算法进行性能评估,以确保选择的算法准确、有效。算法验证阶段,明确算法性能评估环境,应完成算法性能指标评估、压力测试、对抗测试,黑盒须要算法性能影响成分剖析,输出《算法性能评估报告》。
同时,开展算法性能比较剖析,详述各种测试场景(含临床评价)算法性能变异度较大的缘故原由,基于剖析结果明确产品利用限定和必要警示提示信息,输出《算法性能比较剖析报告》。
末了,结合算法演习、算法性能评估、临床评价等结果开展算法性能综合评价,针对演习样本量和测试样本量过少、测试结果明显低于算法设计目标、算法性能变异度过大等情形,对产品的适用范围、利用场景、核心功能进行必要限定。输出《算法性能综合评价报告》。
6.算法风险管理
人工智能医疗东西的软件安全性级别可基于产品的预期用场、利用场景、核心功能进行综合剖断,并开展风险管理活动,采纳有效的风险掌握方法将风险降至可接管水平,并贯穿于人工智能医疗东西全生命周期过程。
人工智能医疗东西的紧张风险从算法角度包括过拟合和欠拟合。从用场角度,赞助决策紧张包括假阴性和假阳性,个中假阴性即漏诊,可能导致后续诊疗活动耽误,特殊是要考虑快速进展疾病的诊疗活动耽误风险,而假阳性即误诊,可能导致后续不必要的诊疗活动;非赞助决策从算法设计目标能否得以实现角度,亦可参考赞助决策分为假阴性和假阳性。应输出《风险管理报告》,明确过拟合与欠拟合、假阴性与假阳性、数据扩增与数据偏倚等风险的掌握方法。
7.算法可追溯性剖析
医疗东西全生命周期管理中,应实现算法的可追溯性,并形成算法可追溯性剖析报告等干系文件及记录,即追溯算法需求、算法设计、算法实现、算法验证与确认、风险管理、数据集的管理。
在数据网络过程中,数据采集、数据整理、数据标注、数据集构建过程中形成《数据脱敏交卸记录》《数据洗濯记录》《数据标注记录》《数据审核记录》《数据仲裁记录》《数据集构建记录》,以上记录均由操作职员具名确认。
数据集管理过程中,每一例数据都可追溯到唯一识别号、脱敏职员、洗濯职员、标注职员、审核职员、仲裁人员、入库职员,担保了数据网络各环节的数据和操作职员的可追溯。
8.算法更新掌握
人工智能医疗东西若发生算法更新、软件更新,均应该按照质量管理体系的哀求,开展与算法更新、软件更新的类型、内容和程度相适宜的验证与确认活动,将风险管理、可追溯剖析贯穿于更新全程,形成记录以供体系核查。
对付算法更新,无论算法驱动型更新还是数据驱动型更新,均应开展算法性能评估、临床评价等验证与确认活动,以担保算法更新的安全有效性。对付软件更新,详细哀求详见医疗东西软件辅导原则、医疗东西独立软件生产质量现场检讨辅导原则。
人工智能医疗东西所含的每个人工智能算法,均应独立开展需求剖析、数据网络、算法设计、验证与确认、更新掌握等活动,同时考虑人工智能算法组合的整体评价哀求,以担保产品的安全有效性。
附件2
人工智能医疗东西常用术语
人工智能 artificial intelligence(AI):表现出与人类智能(如推理和学习)干系的各种功能的功能单元的能力。
人工智能医疗东西 artificial intelligence medical device(AIMD):采取AI技能实现其预期用场的医疗东西。
注1:如采取机器学习、模式识别、规则推理等技能实现其医疗用场的独立软件。
注2:如采取内嵌AI算法、AI芯片实现其医疗用场的医疗东西。
机器学习 machine learning:功能单元通过获取新知识或技能,或通过整理已有的知识或技能来改进其性能的过程。
注:也可称为自动学习。
深度学习 deep learning :通过演习具有多个隐层的神经网络来得到输入输出间映射关系的机器学习方法。
演习 training:基于机器学习算法,利用演习数据,建立或改进机器学习模型参数的过程。
监督学习 supervised learning:一种学习策略,得到的知识的精确性通过来自外部知识源的反馈加以测试的学习策略。
注:也可称为监督式学习。
无监督学习 unsupervised learning:一种学习策略,它在于不雅观察并剖析不同的实体以及确定某些子集能分组到一定的种别里,而无需在得到的知识上通过来自外部知识源的反馈,以实现任何精确性测试。
注1:一旦形成观点,就对它给出名称,该名称就可以用于其他观点的后续学习了;
注2:也可称为无师(式)学习。
强化学习 reinforcement learning:一种学习策略,它强调从环境状态到动作映射的过程,目标是使动作从环境中得到的累积奖赏值最大。
集成学习 ensemble learning:通过结合多个学习器来办理问题的一种机器学习范式。
注:其常见形式是利用一个基学习算法从演习集产生多个基学习器,然后通过投票等机制将基学习器进行结合。
迁移学习 transfer learning
利用一个学习领域A上有关学习问题T(A)的知识,改进学习领域B上干系学习问题T(B)的学习算法的性能。
过拟合 overfitting:学习器对演习样本过度学习,导致演习样本中不具有普遍性的模式被学习器当作一样平常规律,降落了泛化性能;范例表现是演习集上的性能越高,测试集上的性能越低。
欠拟合 underfitting:学习器对演习样本学习不充分,导致演习样本中包含的主要模式没有被学习器获取,降落了泛化性能;范例表现是演习集上的性能可以连续提高,测试集上的性能同时得以提高。
人工智能医疗东西生存周期模型 AIMD lifecycle model:人工智能医疗东西从起始到退役的全体演进过程的框架。
注1:包括:需求剖析,设计与开拓,验证与确认,支配,运维与监控,再评价直至停运。
注2:在人工智能医疗东西生存周期中,某些活动可涌如今不同的过程中,个别过程可重复涌现。例如为了修复系统的隐错和更新系统,须要反复履行开拓过程和支配过程。
数据 data:信息的可再阐明的形式化表示,以适用于通信、阐明或处理。
注:可以通过人工或自动手段处理数据。
个人敏感数据 personal sensitive data: 一旦透露、造孽供应或滥用可能危害人身和财产安全,极易导致个人名誉、身心康健受到危害或歧视性报酬等的个人信息。
注:个人敏感信息包括***件号码、个人生物识别信息、银行账号、通信记录和内容、财产信息、征信信息、行踪轨迹、住宿信息、康健生理信息、交易信息、14岁以下(含)儿童的个人信息等。
康健数据 health data:与身体或生理康健干系的个人敏感数据。
注:由于目前环球规定了不同的隐私合规性法律和法规。例如,在欧洲,可能须要采纳的哀求和参考变更为“个人数据”和“敏感数据”,在美国,康健数据可能会变更为“受保护的康健信息(PHI)”,这须要不同国家或地区的制造商进一步考虑中国当地的法律或法规。
数据集 data set:具有一定主题,可以标识并可以被打算机化处理的数据凑集。
演习集 training set:用于演习人工智能算法的数据集,其外部知识源可用于算法参数的打算。
调优集 tuning set:用于优化人工智能算法的数据集,其外部知识源可用于算法超参数的选择。
注:为避免与医疗东西领域所用术语“确认”进行区分,这里不该用通用人工智能领域的validation set,二者含义同等。
测试集 testing set:
用于测试人工智能算法性能的数据集,其外部知识源可用于对算法的评估。
参考标准 reference standard:筛查、诊断和治疗过程或基于标注过程建立的基准。
注:参考标准可包含疾病、生理状态或生理非常以及位置和程度等信息标签。
金标准 gold standard:筛查、诊断和治疗可依据的最佳参考标准。
数据洗濯 data cleaning:检测和改动数据凑集中缺点数据项的预处理过程。
数据采集 data acquisition:数据由天生装置按照数据采集规范天生,以数字化格式存储并传输到目标系统的过程。
数据脱敏 data masking:通过去标识化或匿名化,实现对个人敏感信息的可靠保护。
数据标注 data annotation:对数据进行剖析,添加外部知识的过程。
仲裁 arbitration:多名标注职员对同一原始数据的标注结果不一致时用于决定终极结果的过程。
软件质量 software quality:在规定条件下利用时,软件产品知足明确或隐含哀求的能力。
软件质量担保 software quality assurance:
a)为使某项目或产品遵照已建立的技能需求供应足够的置信度,而必须采纳的有操持的和有系统的全部动作的模式。
b)设计以估算产品开拓或制造过程的一组活动。
可靠性 reliability:在规定韶光间隔内和规定条件下,系统或部件实行所哀求功能的能力。
完全性 integrity:保护数据准确性和完备性的性子。
同等性 consistency:在数据集的各阶段、部分之间,同等、标准化、无抵牾的程度。
重复性 repeatability: 由同一操作员按相同的方法、利用相同的测试或丈量举动步伐、在短韶光间隔内对同一测试/丈量工具进行测试/丈量,所得到的独立测试/丈量结果间的同等程度。
再现性 reproducibility:由不同的操作员按相同的方法,利用不同的测试或丈量举动步伐,对同一测试/丈量工具进行不雅观测以得到独立测试/丈量结果,所得到的独立测试/丈量结果间的同等程度。
可达性 accessibility:组成软件的各部分便于选择利用或掩护的程度。
可得性 availability:
a)软件(系统或部件)在投入利用时可操作或可访问的程度或能实现其制订系统功能的概率;
b)系统正常事情韶光和总的运行韶光之比;
c)在运行时,某一配置项实现指定功能的能力。
保密性 confidentiality:数据对未授权的个人、实体或过程不可用或不透露的特性。
网络安全 cybersecurity:通过采纳必要方法,戒备对数据、模型等攻击、侵入、滋扰、毁坏和造孽利用以及意外事件,使设备处于稳定可靠运行的状态,以及保障数据、模型等的完全性、保密性、可得性的能力。
安全性 safety:免除于不可接管的风险。
鲁棒性/稳健性:在存在无效输入或急迫的环境条件下,系统或部件其功能精确的程度。
泛化能力 generalizability:机器学习算法对陌生样本的适应能力。
可追溯性 traceability:系统对其决策过程及输出进行记录的特性。
公正性 fairness:系统做出不涉及喜好和左袒决策的性子。
可阐明性 explainability:以人能理解的办法,对系统决策成分进行解释的能力。
黑盒测试 black-box testing:忽略系统或部件的内部机制只集中于相应所选择的输入和实行条件产生的输出的一种测试。
白盒测试 glass-box testing:侧重于系统或部件内部机制的测试。类型包括分支测试、路径测试、语句测试等。
对抗[方法] countermeasure:为减小薄弱性而采取的行动、装置、过程、技能或其他方法。
对抗样本 adversarial sample:基于原始数据上添加扰动达到稠浊系统判别目的新样本。
对抗测试 adversarial test:利用对抗性样本开展的测试,或采取不同目标样本分布的特选数据作为压力数据集进行的测试。
阳性样本 positive sample:由参考标准确定为带有某一种或几种特定特色的样本。
阴性样本 negative sample:除阳性样本以外的样本。
真阳性 true positive(TP):被算法判为阳性的阳性样本。
假阳性 false positive(FP):被算法判为阳性的阴性样本。
真阴性 true negative(TN):被算法判为阴性的阴性样本。
假阴性 false negative(FN):被算法判为阴性的阳性样本。
目标区域 target region:在影像评价中,根据参考标准从原始数据中划分出的多少个包含特定种别目标的最小数据子集(子集元素为像素,体素等)。
分割区域 segmentation region:在影像评价中,从原始数据中划分出的多少个包含特定种别目标的最小数据子集(子集元素为像素,体素等)。
病变定位 lesion localization:算法检出病变位置精确标识出参考标准确定的病变位置。
非病变定位 non-lesion localization:算法检出病变位置未能精确标识出参考标准确定的病变所在位置。
病变定位率 lesion localization rate:病变定位数量占由参考标准确定的全体病变数量的比例。
非病变定位率 non-lesion localization rate:非病变定位数量占全体病例数量的比例,非病变定位率可以大于1。
假阳性率 false positive rate:假阳性病例数量(阴性病例中包含非病变定位)占全部阴性病例数量的比例。
灵敏度 sensitivity
召回率(查全率)recall:真阳性样本占全体阳性样本的比例。
特异度 specificity:真阴性样本占全体阴性样本的比例。
漏检率 miss rate:1减去灵敏度。
精确度(查准率) precision
阳性预测值 positive prediction value:真阳性样本占被算法判为阳性样本的比例。
阴性预测值 negative prediction value:真阴性样本占被算法判为阴性样本的比例。
准确率 accuracy:算法判断精确的样本占全体样本的比例。
F1度量 F1-measure:召回率和精确度的调和均匀数。
约登指数 Youden index:灵敏度与特异度之和减去1。
受试者操作特色曲线 receiver operating characteristics curve(ROC curve):以假阳性率为横坐标、真阳性率为纵坐标,根据算法在不同阈值设定下对付给定的测试集得到的一系列结果绘制的曲线。
曲线下面积 area under curve(AUC):曲线下与坐标轴围成的积分面积。
自由相应受试者操作特色曲线 free-response receiver operating characteristics curve(fROC):以非病变定位率为横坐标、病变定位率为纵坐标,根据算法在不同阈值设定下对付给定的测试集得到的一系列结果绘制的曲线。
候选自由受试者操作特色曲线 alternative free receiver operating characteristics curve(AFROC curve):以假阳性率为横坐标、病变定位率为纵坐标,根据算法在不同阈值设定下对付给定的测试集得到的一系列结果绘制的曲线。
精确度-召回率曲线 precision-recall curve(P-R):以召回率为横坐标、精确度为纵坐标,根据算法在不同阈值设定下对付给定的测试集得到的一系列结果绘制的曲线。
均匀精确度 average precision(AP):精确度-召回率曲线下与坐标轴围成的积分面积。
均匀精确度均值 mean average precision(MAP):在多目标检测问题上,算法对付各种目标的均匀精确度的均匀值。
交并比 intersection over union(IoU):分割区域与目标区域的交集占分割区域与目标区域并集的比例
注:也可称为Jaccard系数。
Dice系数 Dice coefficient:分割区域与目标区域的交集占分割区域与目标区域均匀值的比例。
中央点间隔 central distance:分割区域中央与目标区域中央的间隔,该指标反响两个凑集的靠近程度。
稠浊矩阵 confusion matrix:一种矩阵,它按一组规则记录试探性实例的精确分类和禁绝确分类的个数。
注1:常日矩阵的列代表人工智能的分类结果,而矩阵的行代表参考标准的分类结果;
注2:也可称为含混矩阵。
Kappa系数 Kappa coefficient:一种用于评价结果同等性的指标。
信噪比 signal-to-noise ratio(SNR):旗子暗记均匀功率水平与噪声均匀功率水平的比值。
峰值信噪比 peak signal-to-noise ratio::旗子暗记最大可能功率与噪声均匀功率水平的比值。
构造相似性 structural similarity:是一种衡量两幅图像相似度的指标。
余弦相似度 cosine similarity:通过丈量两个向量的夹角的余弦值来度量它们之间的相似性。
困惑度 perplexity:度量概率分布或概率模型的预测结果与样本的契合程度,困惑度越低则契合越准确。
字错率 word error rate:将识别出来的字须要进行修正的字数与总字数的比值。
交叉熵 cross-entropy:一种度量两个概率分布之间差异的指标。
互信息 mutual information:对两个随机变量间相互依赖性的量度。
做事可用性 service availability:做事客户发起做事要求后,做事可访问的韶光占总做事韶光的比例。
注:做事可用性的打算是在一系列预定义的韶光段中,做事可用韶光之和占预定义韶光段之和的比例,可打消许可的做事不可用韶光。
附件3
参考文献
[1]医疗东西生产质量管理规范附录独立软件
[2]医疗东西生产质量管理规范独立软件现场检讨辅导原则
[3]人工智能医疗东西注册审查辅导原则
[4]医疗东西软件注册审查辅导原则(2022年修订版)
[5]医疗东西网络安全注册审查辅导原则(2022年修订版)[6]YY/T 1833.1-2022人工智能医疗东西 质量哀求和评价 第1部分:术语
[7]YY/T 1833.2-2022人工智能医疗东西 质量哀求和评价 第2部分:数据集通用哀求
[8]YY/T 1833.3-2022人工智能医疗东西 质量哀求和评价 第3部分:数据标注通用哀求
[9]YY/T 1833.4-2023 人工智能医疗东西 质量哀求和评价 第4部分:可追溯性
[10]YY/T XXXX.X-XXXX《人工智能医疗东西 质量哀求和评价 第5部分:预演习模型》搜聚见地稿
[11]GB/T 42061—2022 医疗东西 质量管理体系 用于法规的哀求[S]
[12]GB/T 42062—2022 医疗东西 风险管理对医疗东西的运用[S]
[13]YY/T 0664-2020 医疗东西软件 软件生存周期过程[S]
[14]IEEE Std 2801-2022 Recommended Practice for the
Quality Management of Datasets for Medical Artificial Intelligence医学人工智能数据集质量管理推举标准
供稿 | 北京市药监局医疗东西生产监督管理处
本文系作者个人观点,不代表本站立场,转载请注明出处!