可免费试用30天
已有30000+人申请
2024-01-04
隐私计算是目前促进数据资产实现价值的重要技术之一,其对于数据资产
的价值实现提供了强大的安全流通保障,组织对外数据业务化,很多场景需要
依赖隐私计算得以实现。
实际上,隐私计算全称应称为“隐私保护计算”,它可以让组织间的数据
资产,提供至第三方使用或采购使用后,其资产状态不因使用而遭受形态变化
或价值减损。用更浅显的语言表述即是,通过该技术数据资产可以得到高效保
护,不足以被恶意窃取或破坏。它可以让处理与分析计算数据的过程中能够保
持数据不透明、不泄露、无法被计算方以及其他非授权方获取,增强对于数据
的保护、降低数据泄露风险。各国都将其视为“数据最小化”的一种实现方式,
也和数据资产价值实现的目的相吻合。凭借该技术工具,数据资产价值实现无
需以牺牲部分数据维度为代价,从而保证数据价值最大化的场景。隐私计算是
将数据可见的具体信息部分和不可见的计算价值部分进行分离,实现“数据可
用(可计算)不可见(不可获取)”,进而消除各个数据协同方之间对于数据
安全和隐私泄漏的顾虑,以技术手段有效地破解“数据孤岛”困境。其本质是
一种由多个参与方在安全信任的条件下进行联合计算的技术,各个参与方在不
泄露各自原始数据和商业秘密的前提下,通过加密协作机制对数据进行联合计
算和分析,实现数据的融合价值,让数据智能从局部洞察发展到全局洞察。其
在数据流通场景中的应用如下图所示:
目录层负责管理数据目录、模型目录、存储资源目录、计算资源目录等,
方便上层技术使用数据资源、模型资源、计算资源。协作层提供隐私计算相关
的算法和算子,为数据共享交换提供技术支撑。用到的技术包括机密计算、联
邦学习、联邦查询等。应用层提供应用服务,包括数据共享平台、业务流程引
擎等,同时应用层可基于协作层灵活定制不同的应用服务。
当下,应用较广的隐私计算技术有多方安全计算为代表的基于密码学的隐
私计算技术、以联邦学习为代表的人工智能与隐私保护技术融合衍生的技术,
以及以可信执行环境为代表的基于可信硬件的隐私计算技术。
1 多方安全计算技术
多方安全计算(Secure Multi-Party Computation)是指在无可信第三方情
况下,通过多方共同参与,安全地完成某种协同计算。即在一个分布式的网络
中,参与者各自完成运算的一部分,最后的计算结果由部分参与者掌握或公开
共享。也就是说多方安全计算技术可以获取数据使用价值,却不泄露原始数据
内容,保护隐私,实现数据的可用不可见。常见的多方安全计算技术包括秘密
共享、不经意传输、混淆电路、差分隐私、同态加密、零知识证明等密码学算
法。
多方安全计算技术的安全性和准确性有严格的密码学领域证明,因此被主
要应用于涉及高敏感数据流通的应用场景。在数据要素流通中,多方安全计算
技术可以解决多方参与的联合统计、联合查询、联合建模、联合预测等应用。
2 联邦学习
联邦学习(Federated Learning,FL)是一种分布式机器学习技术和框架,
包括两个或多个参与方,这些参与方通过安全的算法协议进行联合机器学习,
可以在各方原始数据不出私域的情况下联合多方数据资源进行建模训练。在联
邦学习框架下,各个参与方只交换密文形式的算法中间计算结果或转化结果,
而不需要交换原始数据。
联邦学习更多地用于解决联合建模的业务问题,比如信贷风控中的常用的
逻辑回归建模评分、精准营销中的常用的 XGBOOST 分类等建模。联邦学习主要
可以用在数据要素流通的数据产品分类流通环节。2022 年初,国务院办公厅印
发《要素市场化配置综合改革试点总体方案》,提出建立健全数据流通交易规
则,探索“原始数据不出域、数据可用不可见”的交易范式。而联邦学习正是
实现“数据可用不可见”的关键技术,能够在保护数据安全和个人隐私的前提
下,实现多方联合建模,充分发挥数据价值。
3 可信执行环境
可信执行环境(Trusted Execution Environment,TEE)是计算平台上由
软硬件方法构建的一个安全区域,可保证在安全区域内部加载的代码和数据在
机密性和完整性方面得到保护。可信执行环境目标是确保一个任务按照预期执
行,保证初始状态的机密性、完整性,以及运行时状态的机密性、完整性。
可信执行环境需要满足以下几个特征:1)软硬协同的安全机制:隔离不仅
需要依靠硬件实现,也需要依靠软件辅助。2)算力共享:能使用中央处理器(CPU)
的同等算力。3)开放性:可信执行环境需要运行在开放环境中,即只有先存在
常规操作系统,才有引入可信执行环境的必要。
可信执行环境主要可以用在数据要素流通的数据产品分类流通环节,尤其
是高性能隐私计算需求场景,该类场景下,业务同时有数据隐私保护下的计算
需求和高性能计算需求,TEE 能在满足隐私保护需求下提供更高效的计算服务。
本章介绍了公共数据、企业数据、个人数据价值实现的路径,并结合“数
据二十条”的政策背景对不同类型数据资产价值实现的方式和场景予以分析和
探讨。在通过数据治理工作和相应的技术保障措施,保证数据来源合法、数据
处理合规的前提下,政府通过公共数据开放和授权运营来实现公共数据价值,
企业也可以合理利用公共数据开放平台的数据并对其进行分析开发,形成企业
数据资产。当然,鉴于多种因素目前我国尚未实现统一的公共数据开放平台,
各地政府公共数据开放的数量及质量尚有不足,随着公共数据开放的进程加快,
公共数据蕴含的真正价值也将逐步得到释放;在企业数据资产价值实现路径中,
企业数据资产可以通过将业务数据化(内部使用)、将数据业务化(外部流通)
以及将数据作为资产计入财务报表等方式实现数据资产的价值。当然,数据资
产价值实现路径不仅仅只有这些方式,本报告旨在“抛砖引玉”,对数据资产
价值实现的路径随着数据要素市场各项机制的成熟,以及行业对数据要素价值
的探索,未来将会有更多的路径实现方式。正如,最近大火的 ChatGPT 内在原
理就是使用了大量文本数据训练得出的大型语言模型,实质上也算某种意义的
数据产品,该产品一经推出火遍全球,引发了资本市场的躁动,有人甚至称该
AI 人工智能产品将会引发第四次工业革命。可见,数据资产价值的实现路径将
会有 N 种方式和可能,而本质上还是在如何将数据要素价值释放。故而,我国
将数据作为生产要素是时代发展的必然过程