国外公共数据资源开放共享中的隐私风险控制研究综述

2024-03-18 04:54苏君华杜念

现代情报 2024年3期

苏君华杜念

关键词：公共数据资源；开放共享；隐私风险控制；数据生命周期；综述

2021年，十三届全国人大四次会议通过的《中华人民共和国国民经济和社会发展第十四个五年规劃和2035年远景目标纲要》中明确指出，“完善公共数据开放共享机制”，强调了基于隐私和安全的公共数据开放的重要性。学者们就如何平衡公共数据隐私和效用进行了深入的研究，提出了许多控制方法，如数据信任、差分隐私、去识别化、区块链等。同时，有关隐私风险控制的理论、实践研究逐渐走向深入，产生了一系列相关研究成果。尽管国内已发表隐私计算、开放数据等研究述评，但未见相关综述全面反映国外公共数据资源开放共享中的隐私风险控制研究成果。因此，本文采用内容分析法来梳理、总结国外公共数据资源开放共享中的隐私风险控制研究进展。

本文的主要贡献是从教育、法律、技术和程序手段4个方面梳理当前公共数据开放中的隐私风险控制研究进展，并分类阐述各个方面的研究现状及主要控制措施。最后，总结并展望了当前公共数据开放中的隐私风险控制现状和发展方向，以期为后续研究人员及中国公共数据开放的建设提供参考和思路。

1数据样本与研究方法

《上海市公共数据和一网通办管理办法》第三条规定，公共数据指本市各级行政机关以及履行公共管理和服务职能的事业单位在依法履职过程中，采集和产生的各类数据资源。其中，公共数据的共享、开放、授权经营亦或交易，必须有利于促成公共利益，而不是谋取个人或少数群体的利益。根据公共数据定义，2023年3月30日，笔者以TS=（Open and Data and Privacy and Risk and（Govern-ment OR Public））为检索式，对国外主要全文数据库（含Web of Science、EBSCO、Elsevier、Springer、Taylor&Francis、Emerald、SAGE Jourmal、Wiley、Scopus）进行检索，排除社论材料、专利、信函、新闻等文献类型。为了使检索更全面，以TI=（“Priva-cy Risk”）为检索式补充检索了相关重要文献。手动剔除显著不相关（如非公共数据、涉及隐私风险而无隐私控制的文献）与重复文献后，最终得到99篇文献。

借助VOSview对文献进行关键词聚类分析。首先获取文献关键词，文献关键词整合作者关键词和来源数据库提供的关键词，包括Web of Science关键词、IEEE关键词、Scopus检索关键词及主题词。其次预处理关键词，将外文文献中的关键词翻译为中文，合并同义词与相近词，删除无实际意义关键词等。如将“数据采集”与“数据收集”合并为“数据收集”：

“法律和立法”与“法律”合并为“法律／立法”等：删除“文章”“程序”“调查”等关键词。选取关键词频率大于3的关键词（91），运用VOSviewer软件生成国外公共数据资源开放共享中的隐私风险控制主题关键词共现网络图谱，如图1所示。

根据图1，国外公共数据资源开放共享中的隐私控制主题研究形成了4个主要类团。第一个类团（黄色部分）主要涉及公共数据资源开放共享中的隐私风险控制教育手段；第二个类团（蓝色部分）主要覆盖公共数据资源开放共享中的隐私保护法律手段；第三个类团（红色部分）主要涉及公共数据资源开放共享中的隐私风险控制技术手段：第四个类团（绿色部分）主要涉及公共数据资源开放共享中的隐私风险控制程序手段。各类团包含的研究主题、主要关键词及其频次、关键词数量、总频次信息如表1所示。

综合图1与表1可以发现：①目前国外对公共数据资源开放共享中的隐私风险控制主题研究主要集中在隐私风险控制教育、法律法规和标准、技术、程序4个方面，其中法律手段类团的关键词数量和总频次较高，说明当前公共数据中的隐私风险控制正处于发展阶段，法律正在不断完善中，其中隐私与开放的平衡是研究重点：②当前公共数据资源开放共享中的隐私风险控制教育手段研究成果相对较少，研究者开始注重道德、公众信任对隐私的影响，这对于推进公共数据资源开放共享具有重要作用；③在技术、程序手段方面，隐私增强技术广泛应用于各个领域，特别是政府服务、城市管理方面。并且区块链、差分隐私、人工智能等新兴技术被应用于隐私控制实践中：④4个类团的关键词分布存在交叉现象，说明国外公共数据资源开放共享中的隐私风险控制主题研究热点之间的界限还比较模糊。

2公共数据资源开放共享中的隐私风险控制研究分析

基于关键词共现与聚类分析，本文从收集和接受、转换、保留、发布和访问、访问后5个方面出发，将公共数据资源开放共享中的隐私风险控制实践情况分为程序、经济、教育、法律、技术手段，如表2所示。其中，程序手段指采用组织内部的程序；技术手段包括统计方法、计算方法和人为因素分析；教育手段包括旨在通知与系统交互的数据主体、数据控制者和数据接收者的任何干预措施，及一般数据主体、控制者、接收者或广大公众对隐私惯例和风险的看法：经济手段包括旨在改变利益相关者的经济激励的任何干预措施：法律手段旨在改变利益攸关方的合法权利或利益相关者间关系的干预措施。

2.1公共数据开放中的隐私风险控制教育手段

Watson H等提出，健康数据环境中，需要转变思维方式。他强调优先考虑以患者为中心的研究，并减轻需要量化的患者实际隐私风险，同时必须从患者本身开始自下而上地采取激励措施。这强调了公众信任的重要性。在开放公共数据过程中，日益增长的背景知识导致现有的数据发布隐私保护模式大多无法抵御攻击：通过使用人工智能，数据隐私风险及得出有偏见或错误结论也变得更加突出。这极大地削减了公众对政府、组织机构的信任，同时阻碍了公共数据的开放与共享。然而，当人们意识到他们的隐私受到尊重和保护时，他们会更加自信地参与社会和经济活动。隐私仪表板和个人数据存储是个人用于表达有关保留和使用其数据的详细权限的工具，它帮助提供透明度和对个人数据的控制，有助于提升公众的信任。个人可以使用基于Web的隐私仪表板向选定方或特定用途授予对其数据的精细访问权限。还可在用于监控和自动评估的“仪表板”中查阅个人层面的现有数据源被链接情况。个人数据存储使个人能够有效地对有关他们信息的存储位置和访问方式进行细粒度控制，从而选择在特定时间与特定方共享特定个人信息。个人数据存储不仅提供了增强的控制，而且作为用户控制的交互式系统，是开发更丰富的问责机制、在线聚合方法和高级安全机制的潜在基础。

对于信息或数据管理平台而言，公众的信任也至关重要。研究表明，社会规范、媒体代表和报道、对责任方的看法会影响人们对信息管理平台的信任和使用意愿，而保持公众对信息平台的信任是减轻对数据安全性、隐私和功能效率的普遍担忧的关键。如Shi M等从用户角度分析了影响医疗大数据安全和隐私泄露的关键指标，包括用户访问行为和信任度。并且在判断用户“非法行为”方面，将用户的信任值纳入风险评估指标，可以减少系统误判的可能性。

信任与隐私是彼此紧密联系、相互作用的两个重要因素，包括数据主体、控制者、接收者之间的信任。Ruotsalainen P等认为，可信度（即以合乎道德的方式处理健康和保健信息并保证隐私）是未来个人健康系统、无处不在的医疗保健和普遍健康的基石之一。基于无处不在的信息空间的普遍健康和风险分析框架模型，他们制定了实现可信信息共享的原则，包括数据主体应有权动态验证信任并控制其健康信息的使用，以及设置基于情境的上下文感知个人策略的权利：数据收集者和处理者的责任包括信息处理的透明度，以及利益、政策和环境特征的开放性。这些原则为自主管理健康领域的隐私和信息奠定了基础。基于信任的方法，Zuo Y J等构建了包括供应链成员信任评估、数据分类和基于信任的决策在内的框架，旨在控制和减轻参与者在供应链网络中面临的信息风险（如信息机密性、隐私和完整性的风险）。这充分表明建立数据主体、控制者、接收者及公众间的相互信任对于数据保护和防止个人信息泄露的重要性。

信任的建立依赖于透明和安全的数据处理措施。动态社会契约模型以一套商定的关于如何共享数据的合理期望为基础，对提供可接受的保证的治理以及谁对什么负责达成一致。如Open Mustard SeedPlatform是一个开放数据平台，它允许个人就其个人信息的使用进行社会契约谈判，通过基于同意的平台来管理数据，使人们在合法构成的“信任框架”内共享个人数据。数据信托或数据受托人是另一种新兴方法。这种法律和政策框架方法考虑了第一方或第三方实体（数据主体除外），受一组经批准的法律可执行义务的约束，以管理数据。Potoczny-Jones I等针对智慧城市协调数据敏感风险与预期收益问题，提出了“数据信任”解决方案。该技术框架强制实施个人身份数据最小化、访问控制以及灵活而精细的披露和编辑控制，并结合了法律上可执行的数据使用义务和责任；YoungM等提出由第三方公私数据信托提供的综合法律技术方法，旨在透明度、所有权、隐私和研究目标之间取得平衡。基本成员资格允许公司和机构实现对合规性报告和核心方法研究数据的低风险访问，而模块化数据共享协议支持广泛的项目和用例。除非协议中另有明确规定，否则所有数据访问最初都是通过定制的合成数据集提供给最终用户。安全共享站点以安全和隐私保护的方式对数据进行计算，而无需发布原始数据，且所有数据共享都是透明且可审计的。这种方案解决了对数据垄断的担忧，即没有人拥有数据。数据信托或数据受托人、动态社会契约模型等都涉及整个数据生命周期的隐私控制，在每个数据生命周期阶段通过“信任”框架或方案来管理数据，尽管他们提供“信任”方式不同，前者主要借助信托，后者基于谈判。此外，利用区块链的去中心化、透明化和可信度也有助于解决信任、安全和隐私问题。Kang H等开发了一种基于区块链的新型接触者追踪移动应用程序BeepTrace，旨在缓解大流行并缓解接触者追踪的隐私问题，特别是解决了第三方信任问题。

2.2公共数据开放中的隐私风险控制法律手段

2.2.1隐私保护主要法律法规

当前，隐私风险控制主要的法律法规包括个人信息保护法（PIPA）、数据保护法（DPA）、通用数据保护条例（GDPR）、个人医疗信息保护法（HIPAA）等。

韩国《个人信息保护法》主要保护个人的自由和权利，并通过规定处理和保护个人信息来实现个人的尊严和价值。2020年2月的修订允许未经信息主体同意，将“假名信息”处理为有限目的，这为私营公司和公共机构的公共大数据交付提供了更多动力。然而，修订后的法律侧重于利用大数据、企业间信息合并等，并引入了安全措施义务、罚款、刑事处罚等，但并没有为应对公共机构扩大公共数据开放而承担特别强化的风险管理责任。

英国《2018年数据保护法》法案规定了公共机构及其雇员如何处理与个人有关的数据。根据DPA，参与处理数据的人员被称为维护和操作数据的数据处理者，负责做出有关数据以及是否可以共享数据决定的数据控制者。数据处理者和控制者必须遵守严格的数据保护原则，并确保个人数据得到合法、公平和透明的方式处理；收集和处理最低限度的必要数据，且仅用于特定目的、准确、保存时间不超过必要时间，并得到适当保障。

欧盟《通用数据保护条例》是第一部通过明确定义欧盟内外个人数据处理和移动的背景来直接规范个人隐私的法律。GDPR的颁布带来了巨大的变化。关于受保护的信息，摆脱了传统的个人信息／匿名信息二分法，首次引入假名信息概念。在降低信息主体风险的同时，减轻个人信息处理者义务。关于同意，在法规全文中明确规定，对于用于研究的个人信息的使用，可以“广泛同意”，而不是信息主体的具体同意。关于同意豁免的原因可以确认，即使是敏感信息，信息主体对医疗目的、公共卫生和研究目的的同意也相对广泛地得到豁免。此外，GDPR明确定义了个人（主体）的權利，即：①个人数据泄露通知：②访问收集的数据及其使用方式和目的；③删除数据的权利；④数据可移植性；⑤收集和处理过程中的数据保护。同时，引入并建立数据保护官，他们有义务将其数据处理活动通知当地数据保护机构。根据1995年的数据保护指令，欧盟委员会（2012年）提出了对欧盟数据保护规则的全面改革。此外，ISO/IEC 29100标准还定义了11项隐私原则（ISO/IEC-29100 2011）。

美国有单独的个人医疗信息保护法，对非识别方法有具体规定，如“专家决策方式”和“保障港法”。此外，还对“有限信息聚合”概念进行了单独规定，部分放松了管制。关于免除同意的理由，若机构审查委员会等批准同意豁免，即使未经个人同意，也有可能将个人医疗信息用于研究目的。

2.2.2隐私保护主要标准

人们可能一度认为公共机构收集的任何信息只会用于最初收集的目的，但开放数据的引入改变了这种情况。开放数据是任何人都可以免费下载、共享和重复使用的数据，除了可能需要引用来源之外，对重复使用或重新分发没有限制。开放政府旨在通过使数据易于获取来提高透明度和公民参与与协作。当前许多国家（地区）承诺开放政府，并将公共数据作为开放数据提供。这有助于让公民参与使用或重用政府数据，并且使数据分析提供商或其他政府组织具有通过促进更好的理解和加强决策来帮助政府改进其程序的潜力。但在履行这一承诺时，公共机构需确保以开放格式发布的任何数据不包含个人或敏感数据，即识别或可用于帮助识别公民个人的数据。因为这些潜在的风险因素会影响问责制，甚至降低公共机构的声誉。因此，需要权衡隐私风险和数据效用。①一个重要框架是公平信息原则（FIP）。FIP的有影响力的版本是经济合作与发展组织（OECD）的《个人数据隐私和跨境流动保护指南》。OECD成员国于1980年通过了《隐私准则》，该指南强调，它们提供了“最低标准”，且没有“根据其性质和收集、存储、处理或传播的背景，对不同类别的个人数据实施不同的保护措施。其原则包括：收集限制原则、数据质量原则、目的说明原则、使用限制原则、保安保障原则、开放原则、个人参与原则、问责原则。现在，几乎每个OECD成员国都有以FIP為核心的数据隐私法；②平衡隐私和其他利益。为组织内决策提供信息的另一个重要方法是进行风险评估。美国国家标准与技术研究院（NIST）或国际标准组织（ISO）等公认的国际机构制定了评估安全风险的指南（BS IS0 27000：2017；NIST，2012）。此外，为针对匿名性的要求并帮助组织实施数据去标识化流程以增强隐私，ISO提出了一系列数据去标识化方法，如ISO20889和IS0 29100系列。IS0 29100和IS0 29191标准为大数据链接和开放数据提供了额外的保护，也减轻了公众和科研人员对隐私侵犯或无意中非法侵犯个人数据的担忧。IS0 29192-1至IS0 29192-5用于少量信息安全的技术标准，包括分组密码、流密码和非对称加密等机制。

2.3公共数据开放中的隐私风险控制技术手段

2.3.1去识别化技术

数据的发布可能会导致私人信息泄露。为防止泄露，应在全部或部分个人信息被删除或转换后发布数据，这些技术被称为去识别化。其技术解决方案是从数据集中删除识别信息，同时保留数据的其余实用程序。表3总结了各种去标识化技术的概念和集成技术。

1）假名化指将个人身份数据替换为无法直接识别的其他值。如加密加盐方法，将虚假信息添加到隐私字段中并使用其他算法进行加密，以使恢复原始数据更加困难。Huang H H等通过加密加盐方法（Cryptographic Salting）对一组来自中国台湾地区的电子收费数据进行去识别。这种去识别技术提高了隐私字段的安全性，混淆了原始数据的内容。但没有改变原始去标识方法的一对一对应关系，其获得的结果与原始数据结果相同，但隐私字段的内容更复杂，更难观察。

2）集合体指将统计值应用于个人信息，使其无法识别特定个人。如隐私字段数据平均法，将信息的详细部分转换为简化的分类。该方法提高了数据粒度，但不会导致扭曲和不准确；结合基于距离的记录链接与微聚合方法，通过记录链接对去识别化的开放政府数据进行数据挖掘。该方法能够解决匿名和已经发布的开放政府数据的挖掘问题，支持异构数据挖掘以进行深入分析：ZouininaS等提出了两种通过微聚合实现k-anonymity的技术：k-CMVM和Constrained-CMVM。两者都使用拓扑协作聚类来获取k-anonymity数据，前者自动确定K个级别，后者通过探索来定义它。然而，集合体难以进行基于汇总数据的精确分析。并且当汇总数据量很小时，可以在数据合并过程中提取或预测个人信息。

3）数据缩减指删除可用于识别个人信息的特定数据值。删除直接标识符和准标识符是清理或去标识化的最常见方法，如删除敏感数据和隐私识别信息：删除所有可能包含个人身份信息的自由文本数据字段。但其可用信息数量有限，只能用于粗略的统计分析，当涉及大型数据集时，删除标识符并不总是足以保护隐私，因为几个准标识符组合起来可以具有强大的识别能力。

4）数据抑制指通过将给定的识别信息转换为组的代表性值或预定义的范围来防止唯一信息跟踪和识别。抑制包括用一些特殊值替换原始数据，例如“*”。与之类似的，泛化指故意降低数据准确性（如将年龄转换为年龄组）。然而，数据抑制和泛化都难以进行精确数值分析。

5）数据屏蔽指通过隐藏准标识符的一部分将数据划分为多个组。Templ M等通过向事件历史日期中添加噪声，发现即使在高噪音水平下，也能保持高效用，与原始数据相比，保留了事件数据的基本属性：Badu-MarfoG等发现在两种地理随机扰动方法（地理不可区分性（Geo - indistin-guishability）和甜甜圈地理掩码（Donut Geomask））中，实现的k-estimate匿名性随甜甜圈地理掩码所需的匿名性线性增加，而地理不可区分性高度依赖于其隐私预算因素，且在确保期望实现的k-estimate匿名性方面不是很有效。甜甜圈地理掩码是k-ano-nymity位置隐私保护机制的实现，通过使用点位置的基础邻域人口密度来确定混淆距离以实现隐私保护。地理不可区分性是位置数据差分隐私的实现。它保证受访者的位置在指定的保护距离内受到保护，增加的噪声水平随距离而降低，其速率取决于所需的隐私级别。

在实践中，即使通过上述技术执行了足够的去标识化措施，若数据没有通过与匿名化相关的充分性评估，它仍可以通过逆向工程将数据与补充信息相结合进行推断而被识别并视为个人信息。

2.3.2匿名技术

匿名技术是隐私保护领域的重要手段。通常，以下匿名化测试主要用于评估去标识化过程的充分性：k-anonymity、1-diversity和t-closeness等。

k-anonymity模型是最基本的评估技术之一，生成数据集时通常会检查k-anonymity，可以修改准标识符以避免任何数据链接。Luthfi A等提出贝叶斯信念网络方法，该模型使用像k-ano-nymity这样的抑制技术来匿名化敏感属性，并构建决策过程的因果关系，以开放健康患者记录中的数据。此外，k-anonymity也涉及数据隐私和效用的权衡，k-anonymity原则是若无法将个人与公开发布的数据集中的k-1个其他个人区分开来，则可以实现隐私。其中，k值越高，重新识别风险就越低。特别是Santos W等对ARX k匿名算法的k值进行的敏感性分析表明，匿名化过程可能导致少数群体和社会人口弱势群体的代表性不足。因此，需根据需求情况决定k值。k-anonymity模型的缺陷是易受到同质性攻击和背景知识攻击。因此，Tudor C等讨论了一种弱k-anonymity的替代方案，它要求仅在记录的一个子集中强制执行，这意味着那些不通过k-anonymity控制的变量有可能被用来识别某人。然而，当对这些变量的兴趣较低时，这种风险通常很小。因此，这可能是一个更实用的选择。

1-diversity是一种降低泄露机密信息风险的技术。1-diversity将大于或等于1的良好表示敏感值分配给每个等价类，通过额外要求在每个匿名组中存在表示良好的值来扩展k-anonymity。Ali S等采用1-diversity来保护敏感标签，避免攻击者利用这些标签来推测私人信息：疾病控制和预防中心的病例监测科将流行病学数据集与隐私保护算法相结合，通过自动化工作流和R统计软件实现和验证k匿名性的字段级抑制和L多样性，并根据该流程生成了两个去识别化的公共数据集。然而，1-diversity无法防止概率推理攻击和属性披露。

t-closeness是1-diversity的进一步延伸。这种方法不仅保证敏感值的良好表示，还要求匿名组内每个敏感属性的分布与属性在整个数据集上的分布相同，取模阈值t。然而，与k-anonymity和1-di-versity一样，t-closeness下的年龄、性别、种族甚至工作类型等受保护的属性仍然可以从加速度测量数据中推断出来。并且，这些传统的隐私保护模型对攻击模型和攻击者的背景知识做了过多的假设，各种匿名公共记录的传统方法已被证明存在隐私泄露风险。直到差分隐私技术的出现，这个问题才得到了很好的解决。

差分隐私方法是通过在原始数据或统计数据中添加噪声来处理数据信息和转换原始数据。该模型可降低最大后台攻击风险，并定义隐私保护等级的量化评估方法。与k-anonymity不同，差分隐私是基于概率的，它使用不同的机制来隐藏数据的真实价值以保护隐私，如引入噪声或虚假数据。差分隐私的缺点与k-anonymity的缺点相似：为了实现足够的隐私级别，必须添加一定量的噪声。添加噪声等效于有意向数据集添加错误。这可能导致从数据分析中得出一些错误的结论。Nahmias Y等建议监管机构应该使用差分隐私算法在准确性和隐私之间进行权衡，并提出基于雾计算的政府统计数据发布的差分隐私框架，开发了一种基于MaxDiff直方图的数据发布算法，可用于实现基于雾计算的用户隐私保护功能：Piao C H等也提出了一种基于MaxDiff直方图的数据发布算法，通过应用差分方法，将拉普拉斯噪声添加到原始数据集中，根据最大频率差，对相邻数据箱进行分组，构建平均误差最小的差分隐私直方图。该方法可以有效保护公民隐私，降低查询敏感度，提高发布数据的实用性。然而，差分隐私并不能解决所有隐私问题，也不会保护个人免受未经授权的信息收集、处理或防止安全漏洞。

安全多方計算方法，受密码学领域启发，信息泄漏量根据对手可访问的信息量来衡量。它使两方或多方（彼此不完全信任）能执行涉及其两个数据集的计算，而不透露彼此的任何信息。其他高级加密方法可对数据进行计算，并限制对基础数据的学习。如功能或同态加密能够对加密数据进行计算，而无需解密数据并将其暴露给攻击者。

除上述技术外，提供匿名数据的另一种方法是生成与原始数据具有相同特征的合成数据，可使用机器学习和统计建模方法。合成数据是从使用原始数据集开发的统计模型生成的。生成合成数据最初被用来填补缺失的条目，现在被广泛用于保护隐私，因为合成数据集不直接指向任何“真实”的人。如LiW等基于深度学习的生成模型来解决敏感数据被开放发布问题，该模型生成模拟数据以掩盖原始数据。合成数据通常具有非常低的披露率，但当原始数据具有复杂的结构时，数据效用也相对较低。因此，Young M等在发布数据之前从数据集中删除不需要的偏见和专有信息，并将这些方法与差分隐私技术相结合，当合成数据集不足以进行分析时，调用由强大治理支持的结构化数据使用协议o Lee J S等将微聚合应用于合成数据生成器以链接和利用异构开放政府数据（微数据），允许用户调整隐私阈值水平，以确定隐私披露风险和数据效用之间的适当平衡。这种将合成数据与对原始数据的强大法律保护结合使用，可在透明度、所有权、隐私和研究目标之间取得平衡。

2.4公共数据开放中的隐私风险控制程序手段

通知和同意是数据收集和接受中常用的隐私保护工具，并且在管理个人数据处理的欧洲法律中，获得数据主体的同意是支持公平合法处理个人数据的主要程序机制。同时，通知和同意也有助于确保公共数据开放共享的透明度。在寻求适用的规范时，仅仅遵守法律和采用一次性同意程序不足以确保数据使用在道德上是合理的。因为人们通常希望在数据科学项目的所有阶段都具有透明度，并被告知何时和为什么收集有关他们的数据以及项目的结果是否实现。因此，许多知情同意模型被提出以适应不同情景下的个人隐私保护。①分层或分类同意模型为研究参与者提供了如何以及何时使用数据的选择：②动态同意允许参与者随着时间的推移更新他们的同意偏好，并将结果返回给感兴趣的人；③一揽子或一般同意模型指参与者可选择同意未来对其数据的所有研究使用，而无需获得该研究可能需要的详细信息：④选择退出指参与者主动退出研究。通过“选择退出”，数据主体可以反对将数据用于次要目的：⑤自动同意模型以高精度地预测用户的数据共享决策，来避免提示用户做出大多数决策。

尽管在信息生态中，同意可能是主要的，但同意绝不是合法处理个人数据的唯一机制，它还与维护自治原则、隐私、透明度和不歧视有关。足够的透明度、对有害使用和商业化的控制、反对的能力，特别是反对任何被认为不适当或特别敏感的处理对用户接受具有较低个人控制水平的同意模式至关重要。更友好的智能设备界面可能是一个好的方式以便用户能够控制数据的使用内容和方式，同时也可以帮助用户更好地接收通知并控制同意选择。

透明度和滥用问责制对实现数据效用和个人隐私保护平衡至关重要。如数据资产登记册、公开辩论（或相关记录）可告知公众，政府持有和发布哪些类型的信息，他们如何决定向公众发布或隐瞒哪些数据，并在特殊情况下记录在案；而数据资产清单，可帮助组织制定与部门活动相关的数据管理计划及治理结构，以处理出现的问题。此外，算法问责制和透明度对确保数据安全非常重要。机器智能委员会旨在确保随着新一代算法的开发，公共利益得到保护。而区块链可提供更大的问责制和安全性的承诺。对于数据收集者和数据的个人主体而言，需了解数据的潜在和实际用途。为数据主体实现此类透明度的一种工具是隐私仪表板，该仪表板向个人提供有关哪些实体正在访问其数据、他们如何使用数据以及他们因使用其数据而可能面临的任何隐私风险的通知。在问责制方面，对滥用数据的制裁很重要，包括违反保护或滥用的处罚或其他后果的信息。滥用责任包括使个人能够了解其数据是如何被共享和使用，对侵犯隐私的行为进行民事和刑事处罚，以及因不当使用其数据而受到伤害的个人的私人诉讼权。

在发布信息时，机构必须平衡隐私和效用，包括广泛利益相关方的专家小组参与制定决策来确保合规性。同样重要的是评估重新识别风险，因为即使数据集严重不完整，也可能不符合匿名化的现代标准。开放数据的关键性级别、开放性、攻击风险、信任和使用限制是隐私风险与收益权衡中的重要考虑因素，可通过决策引擎和评分矩阵进行评估：也可通过基于熵的再识别风险来衡量开放数据中的隐私泄露风险，同时结合基于熵的数据实用模型，在保证隐私的同时保证数据的可用性；也可通过贝叶斯信念网络模型分析打开数据时导致风险的因果机制：情况目录通过列出在评估是否以及在何种条件下发布数据集时应考虑的情况或因素，及应如何重新发布数据集的不同选项来帮助作出决定。此外，进行正式的入侵者测试有助于评估重新识别风险，涉及使用“友好的入侵者”来尝试查看他们是否可以重新识别数据集中的任何人并捕获入侵者可能链接到数据集的其他信息以发生泄露，其中适当选择入侵者对于获得准确结果非常重要。

组织在通过信息系统共享数据时，使用访问控制来保护隐私。①这种系统可能要求所有用户注册并共享个人信息，并且使用系统配置文件进行身份验证。如，在发布个人的犯罪历史之前，平台可以要求请求者提供其标识符、全名和动机。通过此功能，专业人员在获得必要的批准后才能够下载他们想要的数据．并且这种请求可通过速率限制来防止快速触发请求：②区分3种类型的用户，即管理、授权用户和运营商，来进行访问控制。如管理层负责向用户授予访问权限并批准运营商上传的数据集在平台上发布；③借助分层访问系统进行访问控制，通过身份验证模块将对私人信息的访问限制为数据所有者，实现分层访问，从而保护隐私。分层访问还可包含更高级的数据共享模型。如向公众提供列联表形式的汇总统计数据等；④向研究人员群体提供交互式查询系统，向通过仔细筛选程序获得批准的少数分析人员提供原始数据。交互机制可使用户能够提交有关数据集的查询并仅接收查询分析结果，分析结果可通过图表等可视化形式呈现。

对披露数据进行重复使用限制是在隐私和开放数据政策之间取得平衡的另一种方法。重复使用限制可以以许可证形式呈现。许可证可能要求用户不要重新识别数据，或在发现个人可以或已被重新识别的情况下通知许可人。此外，在线提供数据的组织通常会提供服务条款或参考道德准则，这些准则描述了使用有关个人机密数据的准则和最佳实踐。如科学用途数据集仅发布给签署数据使用协议的经批准的研究人员，且包含比公共使用数据集更多的变量。数据使用协议通常涉及对数据的使用、共享和重用的限制，保护数据的义务，因使用或滥用数据而造成损害的责任，以及执行协议条款的机制。一般召集／管理数据的组织对其正确访问和使用负有法律责任。然而，在实践中很难发现违反数据使用协议的行为并执行条款。因此，需要通过签署合同或协议等方式确保数据后续使用存在的隐私问题。如在与特定学生共享敏感数据前，可与其签订特殊的合同协议：只有在证明道德批准、签署数据使用协议和明确的数据管理计划的情况下才授予大学教师访问权限等。

此外，在用户访问数据后，还涉及审计系统，该系统包括法律和技术机制，用于检测信息滥用和防止个人违反数据使用政策。如Tzermias Z等提出可确定负责个人身份信息泄漏的公务员，通过使用诱饵文件及“诱饵”信息来识别泄漏：Potoc-zny-Jones I等在试点平台中检测违反策略的行为，并向公众提供未发生此类违规行为的透明度以保护隐私：Lee J T等提出在发生数据泄露风险时通过日志查看以往请求，识别访问过数据的个人，并请求他们返回或销毁受损信息。此外，可能需要第三方审计每年审查数据隐私和安全程序，并且有权访问数据的承包商也可能需要进行此类审计。

3结语

本文对公共数据资源开放共享中的隐私风险控制研究进展进行了综述。综合分析发现，隐私风险控制研究基本覆盖教育、法律、技术、程序方面，涉及公共数据的收集和接受、转换、保留、发布和访问、访问后等阶段。总的来看，当前研究：①重视利益相关者对隐私的看法，倡导积极与利益相关者沟通、交流，特别是构建利益相关者间“信任”：②公共数据中的隐私风险控制法律政策正处于发展、完善阶段，主要聚焦于隐私与开放的平衡问题；③各个领域，特别是政府、城市方面，积极采用新兴技术来保护隐私，如区块链、差分隐私等。

但目前的研究存在：①缺少对公共数据隐私风险控制的讨论。现有研究集中于政府开放数据下的隐私风险控制，忽视了履行公共管理和服务职能的事业单位或企业的开放数据隐私问题：②隐私风险控制方法尚未形成体系。诸如“差分隐私”“数据信任”等隐私控制方法，由于对隐私保护和数据效用的目标或参数（这通常由数据发布者选择）不同，因此其方法、定义、名称存在差异。此外，研究多涉及技术或框架等隐私风险控制方法，而很少构建包括政治、经济、社会、技术在内的综合的隐私风险控制体系：③缺少公共数据资源开放共享中的隐私风险控制的实证研究。虽然内容分析法被广泛用来分析公共数据资源开放共享中的隐私风险控制政策法规，但缺乏相关的隐私风险控制调查与实证研究，未能有效揭示公共数据资源开放共享中的隐私风险控制现状。

这对数据开放和隐私保护的实践工作有一定启示：①深化公共数据资源开放共享中的隐私风险控制的理论研究，探索数据开放与隐私保护相统一的法律制度体系，针对不同时期出现的新问题，及时完善在数字化进程中的法律空白。第一，明晰公共数据与政府数据的区别与联系，考虑履行公共管理和服务职能的事业单位或企业的开放数据隐私问题：第二，面向采集、存储、传输、共享、开放、使用、销毁等公共数据全生命周期过程，探究有针对性的数据隐私保护措施，落实公共数据风险评估、分类分级、合规监管等要求，从而明确安全保障职责，强化安全运行管理，提升安全保障能力；第三，探索完善的公共数据管理组织机构制度，明确公共数据治理和数据保护人员、机构及其职责；第四，通过法律鼓励公共数据创新与应用。探究支持公共数据创新和应用的政策和法律，以推进公共数据驱动的创新，促进公共机构和企业利用公共数据解决社会问题和提供公共服务。②加强对隐私技术的研究，首先，综合运用区块链、隐私计算、数据安全沙箱、边缘计算、同态加密、多方安全计算等隐私增強技术，探索新型开发利用模式；其次，探索技术理念与实践相统一的隐私风险控制途径，通过实施适当的技术和组织安全措施，以确保个人数据的安全，防止未经授权的访问、使用、披露、更改或破坏；最后，构建“一中心一张网一平台”隐私风险控制体系，确保公共数据开放中的隐私风险得到有效控制。③坚持以公众意见为导向。首先，探究建立公众信任的方法。在为公共利益共享数据的情况下，更清楚地说明如何定义和判断公共利益。如增加公共数据资源开放共享中的隐私风险控制的实地调查与实证研究，引入公共数据资源开放共享中的隐私风险的量化分析，提高研究结果的可靠性、可操作性与适用性等；其次，个人的隐私权必须与其他公民权利以及更广泛的社区和社会的权利相权衡。明确公共部门处理数据共享项目过程以建立一致性和透明度；最后，关注人工智能对公众隐私的影响。从法律和监管角度为开发和部署人工智能创造合适的环境，包括将伦理原则纳入共识规范框架，确保整个社会了解其基本情况，并能够就其与人工智能技术的关系做出积极决策。

本文区别于已有综述文章，重点梳理了公共数据开放与隐私相互作用的研究进展。将公共数据开放中的隐私风险控制研究分为教育、法律、技术、程序手段4个方面进行阐述，有助于了解、把握当前开放与隐私保护研究发展现状。最后，文章总结了当前研究的现状与不足，并展望未来发展方向，为推动安全、隐私的公共数据开放提供了新的研究方向。