AI研习丨数字社会数据隐私保护与隐私技能成长_数据_隐私

2024-11-23 13:47:42 计算机

摘要：

AI研习丨数字社会数据隐私保护与隐私技能成长_数据_隐私计算机

针对大数据时期隐私安全问题，先容了隐私技能的几个紧张研究方向，以及当下最热门的联邦学习、安全多方打算、区块链和差分隐私这四种提升数据安全的算法，并且解释了数据确权和数据定价的一样平常方法，期望能够促进数字社会数据隐私保护与隐私技能发展。

关键词：

数字社会；天下不雅观；新兴风险；风险管理

0 弁言

在数字经济时期，数据已成为一种新的生产要素。
我们每个人每天都在产生新的数据，同时我们的私人数据也在不经意间被透露和利用。
数据改进着人们的生活水平，使事情变得随意马虎，但同时也对个人隐私造成极大毁坏，高度信息化使得私密信息透露风险增加。
在国务院印发的《“十四五”数字经济发展方案》中明确提出，需加快构建数据要素市场规则，造就市场主体，完善管理体系，促进数据要素市场流利。
此外，人工智能技能的突飞年夜进对数据所有权和用户隐私保护也提出了新的寻衅。
因此研究数据保护、确权、定价、交易和公正性机制，不仅对拥有数据的主体意义重大，可以保障其在数字化时期的基本权利，而且对全体社会的经济发展和公正分配也是根本性的。

1 紧张研究问题

加强个人数据隐私保护，戒备数字化权力风险，首创数据“可用不可见”的新局势，是加快构建数据要素市场规则的急迫需求和主要内容，从隐私保护技能研发的角度来看，有以下几个研究问题尤其值得关注。

1.1 分布式隐私打算与建模

在大数据时期中，数据代价的表示一定依赖于数据之间的相互流利，但数据的流利又一定导致个人隐私安全的毁坏，以是如何在实现数据流动的同时，有效防止敏感信息透露，保护数据隐私安全是当前大数据运用技能发展的一个主要研究问题，隐私打算便由此产生。

隐私保护技能普通来说即是实现数据的“可用不可见”，数据可用性即开放性，指的是充分利用各种数据，让数据对外开放，做事于决策；数据不可见性即不共享性，指的是数据不离开机构（如政府、互联网企业、运营商等）或个人，担保数据不对外直接共享。
要实现隐私保护的以上哀求，就必须对数据进行加密，且在数据被访问时，采纳技能手段防止数据中敏感信息被访问者以某些办法“逆向”获取，从而造成用户敏感信息被透露和滥用。
在数据密集型打算范式时期，如何妥善、安全地获取和利用数据成为急迫须要办理的问题。
然而，数据自身具有分散性和非排他性。
不同于一样平常实物，数据可以同时或非同时地为多个主体所利用，且只有在利用中才会产生代价，因而数据也很难做到中央化管理，谁都可能得到和利用数据。
此时，分布式打算和建模成为数据隐私保护的更好选择，在这一范式下可依赖的关键技能包括联邦学习（federated learning）、安全多方打算（secure multi-party computation,SMPC）、区块链（blockchain）和差分隐私（differential privacy）。

1.1.1 联邦学习

在现实生活中，除了政府和极少数大型互联网企业能够拥有海量优质的客户数据，绝大多数公司都面临数据量少、数据质量不高的问题，短缺支撑人工智能技能的基本条件条件，这些分散的数据每每会形成孤岛。
联邦学习的产生便是为理解决这些数据孤岛问题。

联邦学习是一种新型的机器学习设定，其目的是在担保数据隐私安全，以及合法合规的条件下，实现各方共同建模，将模型演习的过程由中央转移到各个数据拥有者手中，而不须要集中网络数据。
在联邦学习中，许多客户端可以在一个中心做事器的折衷下共同演习模型，在担保各客户端节点独立演习模型的同时，又能实现不同节点之间的数据共享。
近年来，由于各国法律法规的约束，我们已经无法像以前一样直接粗暴地网络客户数据，然后用以完成机器学习任务。
根据现行法律法规对用户个人隐私的保护，大多用户数据都必须保留在用户本地，虽然这些举措有效地保护了个人隐私，但同时也未便利实现数据交流和整合，大大制约了机器学习能力的进一步提高，因此隐私安全的保护和人工智能模型能力的提升两者之间形成了抵牾。
联邦学习便是人们在此环境下探索出的一种机器学习新模式，其可以在不交流本地原始数据的条件下，仅通过模型参数或中间结果的通报来实现全局模型的构建，从而很好地办理了隐私保护和数据共享之间的抵牾。
也可以说，联邦学习是一种“数据可用不可见”“数据不动模型动”的运用新范式。

1.1.2 安全多方打算

安全多方打算是指在无可信第三方参与的情形下，拥有数据的多方在确保数据不透露的同时，利用隐私数据参与保密打算，共同得到的一个打算结果。
安全多方打算紧张利用到下面四个技能。

（1）不经意传输

不经意传输协议是一种可保护隐私的双方通信协议，用以保护信息发送者和吸收者的隐私。
信息发送者从一些待发送的中发送一部分给吸收者，但不知道发送了哪些信息（对吸收者的隐私性）；同时，吸收者也只能得到那一部分信息，而无法获取其他的任何信息（对发送者的隐私性）。

（2）秘密共享

在秘密共享系统中，秘密被参与者群体合理分割，只有多于特定个数的参与者互助，才可以规复或打算出秘密，参与者个数少于特定值则无法获取秘密。
攻击者想要获取密钥就必须同时得到一定数量的秘密碎片，这样就能提高系统的安全性；此外，当某些秘密碎片遗失落或者破坏时利用其他参与者节制的信息依然可以得到秘密，提高了系统的可靠性。

（3）稠浊电路

稠浊电路可以用于办理安全打算问题，其核心技能是将两方参与的安全打算函数编译成布尔电路形式，然后将真值表加密打乱，从而在不透露参与者信息的根本上实现电路的正常输出。
比较较于其他安全打算技能，稠浊电路具有更高的通用性，因此发展空间很大。

（4）零知识证明

零知识证明也是安全多方打算的一种常用的技能手段。
零知识证明指的是示证者在向验证者证明某项问题时，在不暴露任何有用干系信息的条件下，使验证者相信某个论断是精确的。
以是，如果将零知识证明成功的运用于实际，那么就可以很好地保护隐私安全。

1.1.3 区块链

区块链是一种去中央化、公开透明的防修改账本。
在中央化情形下，一些企业为了躲避法律任务，每每会修改数据或者直接删除对自己不利的数据。
传统的机器技能（例如硬盘数据规复、日志查询、 IP 追踪等）没有从根本上办理问题，而区块链的涌现使得数据具有了不可修改性，是一种重大打破。
同时，区块链技能具有高可靠和高可用性，数据被分布式存储，冗余备份，任何单个节点的崩溃都不会导致整体数据的丢失。

智能合约是基于区块链技能的一种打算机协议，是一个在可信的实行环境下，由打算机措辞取代法律措辞记录条款，并由程序自动实行的合约。
大略来说，智能合约便是传统文本合约的数字化形式，并且可以在分开人为监控的情形下由程序自动实行。
与传统合约比较，智能合约具有三个特点：① 开放性。
智能合约完备支配在区块链上，以是合约的内容自然是公开透明的。
② 安全性。
由于区块链的特性，智能合约的内容无法被少数人修正。
③ 永久运行。
只要区块链存在，智能合约就可以被所有的网络节点共同掩护，因而可以一贯运行下去。

在隐私打算中，我们可以通过区块链记录所有的数字交互过程，并通过智能合约记录数据建模和剖析的过程，实现打算过程的安全可信。

1.1.4 差分隐私

差分隐私是针对数据库的隐私透露问题提出的一种新的隐私定义，是为理解决差分攻击而引入的一种办理隐私保护模型。
其事理是在原始的查询结果中添加滋扰数据，再将结果返回。
差分隐私可以在最大化实现数据查询准确性的条件下，最大限度地减少识别其记录的机会；即在保留统计学特色的条件下，去除个体特色以保护用户隐私。
我们可以通过对目标函数、梯度和输出结果添加噪声，实现差分隐私和机器学习的结合。
加入滋扰后，用户便无法通过查询结果反推出准确的信息，从而达到保护隐私的目的。

1.2 基于当代产权理论的数据确权

数据确权即是数据产权的确定，其目的是保护数据权利人对数据财产的直接掌握和支配的权利，实质是在大数据时期中，数据生产者对付社会资源分配的一种主见。
2020年4月9日，中共中心、国务院发布《关于构建更加完善的要素市场化配置体制机制的见地》，首次将数据与地皮、劳动力、成本、技能等传统要素并列为生产要素之一，提出要加快造就数据要素市场，包括推进政府数据开拓共享、提升社会数据资源代价，以及加强数据资源整合和安全保护三方面事情，明确了数据作为一种新的生产要素的地位。

既然数据已经被定义为新的生产要素，那么就必须要深入研究数据确权的机制。
清晰的所有权归属是数据资发生意营业的条件与根本。
数据资产的权利紧张包括所有权、利用权和收益权等，个中所有权是核心。
一贯以来，各国均在探索依赖法律通过“赋权 - 维权”的传统模式为数据产权保护供应依据，并取得了一定实际成果，例如欧盟最早颁布的《通用数据保护条例》（GDPR）、美国加州的 CCPA，以及我国通过的《中华公民共和国个人信息保护法》等。
然而现有的法律规定在实际运用过程中仍面临掣肘，个中，GDPR 被指出可能会从根本上改变大数据剖析的办法，使其成为次优且低效的保护办法；同时在海内也面临当事人提起诉讼的案件稀少而且胜诉率极低的问题，数据所有权保护并未随着立法的快速推进而达到预期效果。

在当代产权理论启示下，可以将数据确权的目标等价于最大化数据要素产生的代价。
基本思想是互助中形成的产权应归属于对互助后产出贡献最大的一方。
与交易本钱理论比较，这一理论为垂直整合供应了新思路，回答了整合过程中的“由谁整合” 的顺序问题。
在数据要素整合过程中，数据要素的产权或者在用户协议之外的剩余掌握权，应向起到关键浸染的平台倾斜，以此勉励平台投入更多资源促进数据市场高效运转。
而作为贡献更显著的平台方，也即整合用户数据的一方，只须在交易过程中时向用户支付“赔偿”，即可实现当代产权理论背景下的数据产权交易。

1.3 数据定价和公正性

建立数据要素市场的其余一个难点便是数据资产的定价问题。
数据的定价，尤其是消费数据的定价，是一个关乎未来数据市场是否公正的关键性问题。
人们作为数据的生产者，一直地生产着数据，如果其他利用这些数据赢利的人可以不支付本钱，那么就会导致严重的社会不公正征象。
在未来，数据就如同一种原材料，因此，对其进行合理定价是很必要的。

“没有交易本钱的天下，就像没有摩擦力的物理天下一样奇怪”，在借助机器学习对数据实现定价策略时，各方须要协同完成一个学习任务，因此基于互助博弈的定价策略才能科学地办理问题。
一样平常来说，数据集（或机器学习中的节点）可以对应互助博弈中的参与者，机器学习演习产生的模型可以认为是互助收益，那么打算每个数据集的贡献，就转换成了合理分配利益的问题。
我们可以引入夏普利值（Shapley value）来量化各数据集供应的贡献值。

夏普利值原来是办理博弈论等分配问题的一种方法，现在也可以用来阐明机器学习中各特色对结果的贡献度。
因具备对称性（互助者的顺序编号不影响互助获利的分配）、有效性（各互助方获利总和即是互助获利）、冗员性（无贡献的成员不参与终极获利的分配）和可加性等优秀性子，天然地符合办理实际问题的哀求，因而在数据定价中被广泛运用。
例如联邦学习中评估每个参与者贡献的问题，可以等价于求解互助博弈中各个参与者的夏普利值问题。
基于以上定价规则，可进一步构建数据交易规则。

由于大数据的生产者每每是大众，其产生的经济效益理应被普通大众分享，而非完备被平台公司私有化，否则就会再现“遍身罗绮者，不是养蚕人” 的悲剧。
除了上述的联邦学习 + 博弈定价之外，还可以采取数据银行、数据相信和数据 B2G（business to government) 等方法对数据收益进行公正分配。

2 结论

我们正处于新工业革命背景下数字经济发展的大数据时期，数据已经和劳动力、地皮、成本和信息等并列为一种新的生产要素，人类社会、物理天下和信息空间深入领悟所形成的三元空间，以前所未有的广度和深度映照人们事情、生活和生产的规律和模式，数据作为主要的经济社会发展资源的代价愈发得到凸显，不断地促进社会飞速发展，并逐渐成为一个社会的核心资产。
但同时，大量数据资源的挖掘也成为了一把“双刃剑”，高度信息化对个体隐私安全造成前所未有的毁坏，因此，如何平衡数据市场化和数据隐私安全的抵牾成为亟待办理的社会问题。
为理解决这个问题，须要我们同时做好隐私技能的研发和数据权力的保护。
个中，隐私技能作为保护个人隐私的主要手段，必须不断深化理论研究，优化算法和模型；而数据权力的保护作为数据要素市场化中的核心逻辑，其发展须要我们对数据确权和隐私保护、数据定价和交易、数据收益公正分配等根本问题投入更多的资源和人力，做长期深入的研究。

（参考文献略）

选自《中国人工智能学会通讯》

2022年第12卷第9期

数字社会的风险寻衅与管理应对专辑

扫码加入我们