AI法治前沿系列欧盟|《人工智能法案》解读(三) :高风险人工智能系统合规要求之数据演习和数据治理_数据_人工智能
三、数据演习和数据管理
(一)数据演习和数据管理总论
第10条第1款 利用数据演习模型技能的高风险人工智能系统,应在利用符合本条第二款至第五款所述质量标准的演习、验证和测试数据集的根本上开拓。
第10条第3款 演习、验证和测试数据集应具有干系性和充分的代表性,并在最大可能范围内没有缺点,而且从预期目的来看是完全的。数据集应具有适当的统计特性,包括在适用的情形下,与意图利用高风险人工智能系统的个人或群体有关的统计特性。数据集的这些特性可以在单个数据集或数据集组合的层面上得到知足。
第10条第4款 数据集应在预期目的哀求的范围内,考虑到高风险人工智能系统预期利用的详细地理、场景、行为或功能环境所特有的特色或要素。
数据作为人工智能模型的根本,是使人工智能与传统打算机系统线性模式不同的关键所在。欧盟《人工智能法》中援引经济互助与发展组织(OECD)对付人工智能的定义,个中强调“人工智能系统通过吸收到的输入数据中推断出如何产生预测、内容、建议或决定等输出,以影响环境”,反响出了数据在人工智能生命周期中的三个浸染:在开拓和测试阶段须要通过投喂数据进行演习,在投入利用后,一方面通过支配者(用户)的输入数据产出结果,另一方面利用输入的数据更新模型,进一步以新数据为根本学习和迭代。数据的主要性也反响在《数据法》(Data Act)和《数据管理法》(Data Governance Act)等作为欧洲数据计策的一部分立法中,以及诸如《欧洲康健数据空间条例》(European Health Data Space Regulation, EHDS)等细化条例中,应该将此类立法文件作以汇总一并阅读阐明,以更全面理解欧盟数据规制框架。
第3款 所谓数据管理,指的是为在全生命周期担保高水平数据质量和隐私性所采纳的方法,在立法草案中,对付数据质量的哀求是极为严格的“没有缺点”,后期修订通过的版本进行了一定的责任减缓,将其改为“完全”且“最大可能得没有缺点”,与修订前的不同在于修订前的“没有缺点”可以扩大阐明作“在全生命周期”不附加且不产生缺点,纵然说这一哀求对算法数据输入还是可行的,在后期更新和产出也会出问题。基于大数据模型的人工智能系统的数据具有海量性、高速性、多样性这样的特色,其渠道多元,规模弘大,传输速率快,且可能在传输中产生聚类反应,使得传输速率不屈均而是呈现出周期颠簸的态势,导致数据噪声大。在这种情形下,“最大可能”这一用语表明了立法者对付供应演习测试数据的供应者哀求限定在了供应数据之时,依据审查步骤和现有技能水平,并结合演习测试数据的运用处景,能够评估数据为无误即可,至于是否会在其他场景涌现缺点、假以时日是否会再涌现偏差,则在所不问。
对付演习测试数据的另一个基本哀求是“干系性”和“充分代表性”,目前尚无干系标准或案例以资参考,笔者认为,将前者阐明为“与预期目的的符合性程度高,且能够一定程度上反响算法设计目的和特性”,将后者则类似于随机森林或K隔壁演算法的取样方法,为了得到稳健预测,减少潜在阐明变量多重共线性对付样本数据微扰(Perturbation)所导致的预测变量和预测模型不愿定性强的问题,基于原始数据重复取样产生新的随机数据,并将每个数据都作为一个决策树的“树根(Root)”,由其分别产生预测值并取均匀,使抽取的演习测试数据具有“充分代表性”,这也与其提及的“统计特性”相同等。
此处,统计特性是针对数据的样本偏差问题,由于演习测试数据实质上是对付总体数据的抽样剖析和测试,对付大模型而言,因其面向群体广泛,数据时效性哀求高,故产生偏差和无法知足预期目的的可能性就随着韶光推移和环节增多而大幅度上升。故而,供应者应该考虑到统计特性,在演习测试数据集中利用K交叉验证法等方法,避免重复相同或附近的样本数据导致数据窥视偏差或数据显著性水平失落衡。
(二)数据演习和数据管理详细方法
第10条第2款 演习、验证和测试数据集应遵守适宜高风险人工智能系统预期目的的数据管理和管理做法。这些做法应特殊涉及
a. 干系的设计选择;
b. 数据网络过程和数据来源,如果是个人数据,还应解释网络数据初始目的;
c. 干系的数据准备处理事情,如标注、标记、清理、更新、充足和汇总;
d. 提出假设,特殊是有关数据应衡量和代表的信息的假设;
e. 评估所需数据集的可用性、数量和适用度;
f. 审查可能存在的偏差,这些偏差可能会影响人的康健和安全,对基本权利产生负面影响,或导致欧盟法律所禁止的歧视,特殊是在数据输出会影响未来运营投入的情形下;
g. 采纳适当方法,创造、预防和减少根据第2f款确定的可能的偏差;
h. 确定妨碍遵守本条例的干系数据差距或毛病,以及办理方法。
第2款 详细而言,对付数据演习和数据管理,立法者首先给出了一样平常数据的处理方法范式,第一点依旧是“设计选择”,这是一个很模糊的表述,笔者联系附件四中的§2.d对付技能文件的哀求,认为此处的设计选择应该是包含技能文件的归档的一系列程序,可以通过第17条得到印证,个中提到数据管理系统包括“数据获取、网络、剖析、标注、存储、过滤、挖掘、汇总、留存”和入市前与数据有关的任何操作,应该认为此处立法者故意于供应者供应数据在各个环节流通利用的一样平常路径程序设计,以便于对付后续提到的“偏差”进行逐个环节的追溯。
表2.3.1 第10条与第17条关于数据管理部分条文比拟
后续的条文也能够佐证这一点,第二步哀求保留数据网络过程和网络来源,特殊指出对付个人数据网络应遵照的必要原则,哀求供应网络目的。接下来是对数据处理事情的哀求,较为宽泛,只点明了处理环节,而未对每一环节标准加以展开解释。第四步是假设,亦即在实际利用数据集进行演习之前,对付预期产出结果和目的的适配程度进行预测和评估,若两者相差较大,则应该重新选取数据或洗濯数据集。第五步哀求对数据可用性和适用度进行评估,由于纵然能够认天命据可有效产出希望的结果,当前所选取的数据集是否能够最有效且无害地产出特定结果,依旧须要谨慎评估,并在评估后审查和弥合或办理偏差,形成一个闭环的迭代过程,类似于上文所述的风险评估体系。
(三)与《通用数据保护条例》(GDPR)的关系
第10条第5款 在根据本条第2f款和第2g款确保与高风险人工智能系统干系的偏差检测和纠正的严格必要范围内,此类系统的供应者可例外处理2016/679号条例第9条第1款、2016/680号指令第10条和2018/1725号条例第10条第1款提及的分外类别的个人数据,但必须适当保障自然人基本权利和自由。除2016/679和2018/1725号条例以及2016/680号指令中的规定外,必须知足以下所有条件才能进行此类处理:
a. 通过处理其他数据(包括合成或隐名)无法有效实现偏差检测和纠正;
b. 分外类别的个人数据在重新利用时受到技能限定,并有最前辈的安全和隐私保护方法,包括隐名化;
c. 对分外类别的个人资料应采纳方法,确保所处理的个人资料是安全的、受保护的、 有适当的保障方法的,包括严格的掌握和查阅记录,以避免滥用,并确保只有经授权的人才能查阅这些负有适当保密责任的个人资料;
d. 分外类别的个人资料不得被其他方传送、转让或以其他办法获取;
e. 一旦偏差得到纠正或个人资料的保存期结束,以先到期者为准,立即删除分外类别的个人资料;
f.根据2016/679和2018/1725号条例以及2016/680号指令进行的处理活动记录包括处理分外种别个人数据对付创造和纠正偏差绝对必要的缘故原由,以及处理其他数据无法实现该目标的缘故原由。
在欧盟立法体系下,网络、储存与处理个人数据的有关组织必须遵照《通用数据保护条例》(GDPR)的有关哀求,例如根据其第六条和第九条,在网络处理个人数据供应必要性依据,并为处理分外类别的个人数据,诸如种族、血统、康健干系数据时供应额外必要性依据。只管《通用数据保护条例》明确禁止分外类别的个人数据,但在其第9条第2款中也留下了立法保留的空间,其强调,此种例外许可应该是出于“重大利益”关涉,并根据欧盟或其成员国立法明确,此种处理是“必要的”,这种处理不仅不会很大程度上威胁到个人或社会***,反而与欧盟及其成员国追求的目标相同等,在实质上是对数据保护权的尊重,与此同时能够供应适当方法保障数据主体权柄。易言之,这是一种比例原则的表示,要件有四:一是重大利益,此种利益关涉更广泛群体或更广泛"大众年夜众利益,与欧盟及成员国目标同等;二是由欧盟或成员国立法许可;三是处理数据具有必要性;四是处理的同时看重对付数据主体权柄的保护。
此处,欧盟《人工智能法》第10条第5款即是此处的分外的许可环境,立法仅为其供应了第二个要件的知足,因此在处理个人信息时,依旧须要证明处理数据的必要性(和预期目的的合营程度)和网络同时保护数据主体权柄的两个问题。只管如此,上述规定依旧授予了为二次利用特定个人信息数据供应了自由度,也同时供应了一些保护方法,例如数据隐名处理、预期目的作为数据网络边界和技能安全方法等。此类保护方法通过文意阐明,应该和《通用数据保护条例》中的哀求一并利用,而并不是择一的关系,这一点在《人工智能法》释义性备忘录中也有明确提及。例如,在利用个人信息数据演习人工智能系统时,双重责任哀求一方面干系、代表性、完全且最大程度无差错,另一方面要遵照《通用数据保护条例》第6条关于个人数据处理的规定。
状师简介
王进
海华永泰高等合资人
王进,海华永泰状师事务所高等合资人、科创业务委员会主任。华东政法大学法律硕士、复旦大学EMBA、复旦大学法学院实务讲师,近20年状师行业履历。专注于公司与商事、繁芜案件争议办理、科创与高科技等领域。在人工智能与数字经济方面,对人工智能合规与企业风险应对、数据合规与交易、网络安全领域有深入的研究和丰富的履历。
乔恒祥
海华永泰状师助理
中国政法大学法学硕士。专注于人工智能、数字经济行业等科创行业领域。
陈禹廷
本科就读于同济大学法学专业,参与上海市人工智能协同管理中央环球人工智能管理数据库等项目,担当AI-Law等组织卖力人。
编辑:秦正
本文系作者个人观点,不代表本站立场,转载请注明出处!