睿治

智能数据治理平台

睿治作为国内功能最全的数据治理产品之一,入选IDC企业数据治理实施部署指南。同时,在IDC发布的《中国数据治理市场份额,2022》报告中,蝉联数据治理解决方案市场份额第一。

ENISA:针对临床数据、健康数据等医疗行业信息的假名化技术应用

时间:2022-05-03来源:一程山路浏览数:312

于在不同利益相关者之间交换和共享个人健康数据的需求越来越大,处理个人数据的实体必须基于治疗等目的收集和处理所需的患者数据,并采用适当的技术措施保护患者的个人数据。


2022年3月24日,欧盟网络安全局(European Union Agency for Cybersecurity,简称“ENISA”)发布《假名化技术部署报告》(Deploying Pseudonymisation Techniques)。

报告强调了假名化技术在医疗行业的附加价值,并通过简单具体的案例证明了该技术在医疗行业的适用性。报告展示了假名化技术如何提高医疗行业患者个人数据保护的水平,并提高了对假名化技术措施可用性的认识以及如何在实践中部署假名化技术,从而进一步保护健康数据。

近几十年来,技术的快速变革影响到了正在进行数字化转型的医疗行业,医疗行业新技术的整合带来了数据保护和网络安全方面的新挑战。由于在不同利益相关者之间交换和共享个人健康数据的需求越来越大,处理个人数据的实体必须基于治疗等目的收集和处理所需的患者数据,并采用适当的技术措施保护患者的个人数据。

假名化技术日益成为一种关键的安全技术,为保护个人数据提供强有力的保障,从而保障个人的权利和自由。在《通用数据保护条例》(GDPR)中也明确提到假名化作为一种技术,既可以通过设计促进数据保护(GDPR第25条),也可以促进个人数据处理的安全(GDPR第32条)。

假名化是什么?

GDPR第4条(5)项规定,假名化是一种处理个人信息的方式,即不使用额外信息便不能将个人数据归属于某一特定信息主体,该处理方式需将额外信息分开存储,并对其施加技术和组织层面措施,确保个人数据不关联到已识别或可识别的自然人。

广义上讲,假名化的目的是通过隐藏数据集中个人(数据主体)的身份来保护个人数据。例如,用所谓的假名取代个人数据标识符,并适当地保护假名和初始标识符之间的关联,如有必要,可以通过假名和原始数据的关联来重新识别个人。

示例:

假名化技术属于“去识别”技术(如聚合、混淆、掩蔽等),旨在消除一组识别数据与数据主体之间的关联。如果发生个人数据泄露,假名化增加了恶意分子使用被泄露数据识别个人的困难程度。

值得注意的是,假名化和匿名化并不相同:

假名化数据是个人数据,而匿名化数据不是;

假名化数据具有再识别的可能性,而匿名化数据不能。

常见的假名化技术

假名化技术根据假名的生成方式而各不相同。下表对最常见的假名化技术进行了全面总结:

技术 假名生成器
计数器 单调的计数器,从某一数值开始,每次需要新的假名时都会产生数值
随机数 每次需要一个新的假名时,在最小和最大边界之间产生随机数
哈希函数 单向(不可逆)的加密函数,将输入的个人数据转化为固定长度的数值
基于哈希的信息验证码(HMAC) 单向(不可逆)的加密函数,增加密钥,使其比哈希函数更难预测
加密 双向(可逆)加密功能,输入的个人数据可使用密钥重新转换为原始数据

常见假名化技术概述

其中,哈希函数可以大大促进数据的完整性,但通常被认为是较弱的假名化技术,因为其极易受到暴力破解攻击和字典攻击。更为有效的假名化技术则包括使用键控哈希函数的方式,其输出不仅取决于输入而且取决于密钥的哈希函数。

常见假名化技术应用示例:

计数器技术的应用(在两个不同数据库中出现了三次相同的个人数据)

假名注意事项

数据控制者和处理者可以共同使用假名化技术和相关政策(相同的标准),也可以分开使用。第一种情况通常由数据控制者推动,要求数据处理者采用相同的标准。除了使用相同标准外,最重要的是共享相应技术信息。如果不共享技术信息,则接收假名数据的实体在正确实施所有机制的情况下将无法检索原始个人数据。

数据控制者可以要求数据处理者对个人数据进行假名化,甚至要求其如何进行假名化,特别是在假名化数据要在双方之间进行交换的情况下。

假名化的规范应基于事前的风险或影响评估结果,包括以下内容:

目标个人数据(例如一组标识符);

所使用的假名化技术;

适用于该技术的参数(所采用的算法、密钥长度等);

所使用的假名化政策。

假名化技术在医疗领域的应用

在医疗健康领域,假名化技术具备应用价值。

交换患者的健康数据

医疗实践中,各组织间出于诊断和治疗目的进行数据交换是一种常见策略。如:同一实体内不同部门之间的交换(如医院)或个人之间的交换(如医疗专业人士、实验室等)。在交换患者健康数据的过程中,运用假名化技术使传输的数据不包含患者的个人识别信息,只包含假名和医学测试结果。具体过程如下图:

交换患者的健康数据:从Mlab传输给主治医生的数据不包含Anne的个人识别信息,只包含假名和医学测试结果

同一医疗中心(如医院)的医生之间对医疗数据的访问应基于认证和相关用户权限。医生可以访问假名化密钥,从而直接识别患者,或者只访问患者的假名标识符而不直接识别患者。例如,患者在医院的不同部门进行检查时,各治疗医生可将分配给患者的PatientID与患者关联,使用PatientID来处理患者的个人数据,如下图所示:

该案例不适用于已经部署了电子健康记录(EHR)系统或可互操作的电子健康记录的情况,因为在该情况下数据的交换和个人信息的识别可能已经被定义。但可以在早期设计阶段考虑使用假名化技术来提高保护水平,支持合规性,促进电子健康记录的广泛采用。

临床试验

假名化的临床试验数据允许在试验期间检测相关性,并在认为必要时重新识别特定个体。

临床试验一个典型的情况是双盲研究,即把具有相似特征的一组人(如患有相同疾病的患者)分成两个分组。一组患者使用试验专用的药物进行治疗,另一组患者则接受安慰剂药物进行治疗。在研究中,参与者和研究人员都不知道被分配到哪一组,两个组群的医疗数据是相同的。一旦获得所有数据,研究人员就可以比较每组的结果,确定新的医疗干预(自变量)是否对治疗(因变量)有影响。

在临床试验中,参与者个人数据诸如年龄、性别、职业、居住地等信息可能与研究有关,从而导致参与者的身份被识别。使用假名化技术可以在不暴露各数据项真实价值的情况下执行检测相关性和统计模式的任务。在某些试验中,这甚至可以扩展到症状和药物的相关性和统计模式。由于在临床试验中通常会收集几种不同类型的个人数据,所以必须谨慎地应用假名化,以避免使患者面临未经授权的重新识别。可以通过结合两种方法来实现:

1)对每个参与者的主要识别数据采用假名化。

2)对不同临床参数的每个识别数据使用一个以上的假名。

参数与假名的关联性

患者提供健康数据监测信息

如今,智能穿戴设备能够监测生命体征,如心率、氧饱和度和血压水平等。定期监测生命体征是患者护理中常见的干预措施,患者能够查看测量结果,并在观察到异常值时联系医生。本示例设想提供一个健康监测系统(HMS),在该系统中,医生可以访问患者的医疗信息并监测其生命体征,接收异常值通知。

患者提供健康数据监测信息期间的假名化

例如,约翰被诊断出患有心血管疾病(CVD)和心律失常。约翰的可穿戴设备定期监测其心率,当其静息心率低于低阈值或高于高阈值时,可穿戴设备会提醒约翰并向其主治医生发送通知。可穿戴设备不直接发送约翰的心率值等个人数据,而是进行假名化处理,减少了数据在运输过程中被破坏的风险。如下图:

可穿戴设备受到医疗设备网络安全指南的约束。在个人医疗数据的使用和存储过程中,部署假名化技术符合数据安全和数据保护的设计原则,同时也可以加强数据传输时的保密性。

结论

关于如何以及何时应用假名化技术没有一个单一的解决方案;但不同的解决方案在特定场景下都有好的结果,这具体取决于保护、实用性、可扩展性等方面的要求。

无论是在技术层面还是在组织层面,假名化可以是一个“简单”的选择,也可以由一个非常复杂的过程组成。因此,在每个特定案例和处理操作中定义假名化的目标和目的非常重要。为此,GDPR中的相关良好实践和假名化示例对医疗保健提供者和医疗保健应用程序的开发者具有重要参考价值。

国家和欧洲层面的开发者和监管者应促进良好实践的交流,并提供关于在实践中部署假名化技术的实用指导。当然,技术的进步和所提供的健康服务类型可能会影响已经部署的假名化技术的有效性和适用性。这不仅与技术本身的选择有关,也与假名化过程的整体设计有关。假名化技术高度依赖于先进的技术,研究界应继续致力于数据保护和安全研究,包括最先进的假名化技术及其实施过程。



(部分内容来源网络,如有侵权请联系删除)
立即申请数据分析/数据治理产品免费试用 我要试用
customer

在线咨询