- 产品
- 产品解决方案
- 行业解决方案
- 案例
- 数据资产入表
- 赋能中心
- 伙伴
- 关于
时间:2025-04-21来源:数据学堂浏览数:8次
数据作为新型生产要素的价值正以前所未有的速度释放,特别是在人工智能大模型加持下,这一释放还在进一步加速。但这一过程也始终伴随着深刻的治理挑战。数据作为物理世界在数字空间的映射,作为物理实践的数字载体,天然承载着复杂的现实世界属性。物理世界的实践逻辑决定数据空间的运行规则。现实世界的复杂性决定着数据的多重属性及其位阶结构,决定着数据的治理逻辑。
本文基于数据的主权属性、人身属性、公共属性、价值属性的四维框架展开分析,重点研究面向人工智能应用的数据治理。尤其是数据的主权属性与人身属性,对数据分类分级及敏感性治理起着基础性作用,进而构成人工智能数据利用的先决条件。
数据四大属性的位阶顺序是:主权属性>人身属性>公共属性>价值属性。这种位阶顺序的本质反映了数字社会的治理优先级:国家安全红线不可触碰,人格尊严不可动摇,公共利益需要保障,经济价值需以此为前提释放。在此逻辑下,数据分类分级推动数据价值实现需遵循“主权特征锚定框架,人格特征细化颗粒度,公共特征开放利用”的多层路径。
一、数据四大属性的多维治理架构
(一)数据主权属性的刚性约束
1.依据数据主权属性的分类
依据《数据安全法》《网络安全法》的立法精神,数据主权属性体现为国家对关键领域数据的管控权。主权属性通过数据三级分类制度具象化:除国家秘密数据(不上网,数据价值化不涉及)之外是核心数据、重要数据、一般数据。
核心数据是指对领域、群体、区域具有较高覆盖度或达到较高精度、较大规模、一定深度的数据,一旦被非法使用或共享,可能直接影响政治安全的重要数据。具体包括:一是关系国家安全重点领域的数据(如国防、军事、政治安全等);二是关系国民经济命脉、重要民生、重大公共利益的数据(如国家战略储备、关键基础设施运行数据);三是经国家有关部门评估确定的其他数据。
重要数据是指对特定领域、特定群体、特定区域达到一定精度和规模的数据,一旦被泄露、篡改或损毁,可能直接危害国家安全、经济运行、社会稳定、公共健康和安全等公共利益的数据。仅影响组织自身或公民个体的数据不属于重要数据。典型示例包括:一是关键基础设施的网络安全保护数据;二是涉及国家自然资源、环境监测、人口健康等战略性数据;三是大规模个人敏感信息等。
一般数据是核心数据、重要数据之外的其他数据,其敏感性和潜在风险较低,通常仅涉及组织内部管理或公民个人事务,不直接关联国家安全或公共利益。
核心数据、重要数据、一般数据的分类依据在于对国家安全和公共利益的影响程度。核心数据与重要数据的边界可能混淆,根据《数据安全法》,核心数据是满足更高风险条件的重要数据,需通过行业主管部门或国家安全机构审定。国家数据安全工作协调机制统筹协调有关部门制定重要数据目录,加强对重要数据的保护。根据国家网信办《促进和规范数据跨境流动规定》,数据处理者应申报重要数据,但重要数据以确认为准,对确认为重要数据的,相关地区、部门应当及时向数据处理者告知或公开发布。
2.主权属性导向的数据敏感性分级
从主权属性角度,数据分类同时就明确了数据敏感性的分级。核心数据为高敏感数据,需要重点保护,甚至采取“物理隔离、逻辑严控”措施。重要数据为敏感数据,应在可信环境下采取“数据不出域、可用不可见”等方式处理。一般数据为非敏感数据,可采取“底线安全+市场激活”方式处理,对社会开放。不过要注意,这里的敏感性分级仅就主权属性而言,例如一般数据中就有个人数据,从人身属性角度,就可能是敏感数据,需要在可信环境下经数据来源者授权处理。因此一般数据的开放可能是普遍开放,也可能需要通过数据产品化而开发开放。
3.依据数据主权属性对数据的管控
对于重要数据,特别是核心数据,需要落实严格的管控措施,包括加密存储、加密传输、访问控制、权限管理、安全审计、容灾备份等。重要数据处理者还应当明确数据安全负责人和管理机构,落实数据安全保护责任。一般数据只需要基础安全管理,可依据业务需求灵活存储和清理,但需满足基本合规性要求(如个人信息保护)。
对于核心数据、重要数据传输的管控,集中体现在出境管控上。核心数据不出境,重要数据限制出境,一般数据可出境。
因此,对于核心数据、重要数据出境的限定不影响数据在境内的开发利用。但是,数据跨境流动、交易等场景则必须以数据分类分级为前提,落实核心数据不出境,重要数据出境按照国家网信办《促进和规范数据跨境流动规定》执行。其中,关键信息基础设施运营者(CIIO)向境外提供任何个人信息或重要数据,必须申报数据出境安全评估;其他数据处理者若向境外提供重要数据,或累计向境外提供超过100万人非敏感个人信息或1万人敏感个人信息,也需申报安全评估。当然,也有场景化豁免、适用标准合同和认证的情形,以及允许自贸区制定负面清单。
(二)数据人身属性的个体穿透
1.依据数据人身属性的分类
根据《个人信息保护法》的原则,数据来源者(即数据关联对象或数据主体)对数据拥有“知情权、决定权”,这里也隐含了对数据的“可携带权”。三权构成了数据人身属性的三大支柱。本质上看,数据依据人身属性可以分类为涉私数据和非涉私数据,前者关涉到了数据来源者(即包含直接或间接身份识别要素),而后者不涉及。因而后者可以直接作为客体进行数据处理,但是前者因为涉及人格权,不能直接作为客体进行数据处理。
涉私数据进一步按位阶降序分为个人私密数据、法人/非法人组织商业秘密数据、个人非私密数据、法人/非法人组织非私密数据。非私密数据主要用于公众对个体的识别,即体现社会交往的可识别性,而私密或商业秘密数据则涉及到相关个体的私密信息。
2.人身属性导向的数据敏感性分级
按照《个人信息保护法》第28条第1款规定,“敏感信息是指一旦泄露或者非法使用,容易导致自然人的人格尊严受到侵害或者人身、财产安全受到危害的个人信息。”根据这一对敏感性的原则规定,基于人身属性的数据分级主要有以下几类:
敏感个人数据:即个人私密数据。比如自然人的行踪信息、财富信息、健康信息、性取向信息、私密部位信息等。
敏感法人/组织数据:即法人/非法人组织商业秘密数据。比如法人/组织的经营数据、客户数据等商业秘密,法人/组织的技术诀窍信息等。
非敏感个人数据:即个人非私密数据。比如自然人的姓名、身份证件号码、家庭住址、电话号码、电子邮箱等,主要被用于满足社会交往的需要。
非敏感法人/组织数据:即法人/非法人组织非私密数据。比如法人名称、法人组织机构代码、法人住址、联系方式等。
非涉私数据:属于非敏感数据。
3.依据数据人身属性对数据的管控
对于涉私数据,需要严格落实数据来源者的知情权、决定权以及可携带权,建立经数据来源者知情、同意才能处理的机制。
敏感个人数据需要隐私保护和个人信息保护双重保护,只有在针对特定使用者、特定场景下经个人单独授权才能进行数据处理。同时,个人数据出境也有限制,主要是达到一定量的敏感个人数据出境需要申报数据出境安全评估(1万人以上),或订立个人信息出境标准合同,通过个人信息保护认证(不满1万人)。对于关键信息基础设施运营者还有更严格的要求。
敏感法人/组织数据也需要商业秘密保护和涉私数据保护双重保护,只有在针对特定使用者、特定场景下经数据来源者单独授权才能进行数据处理。
非敏感个人数据需要受到个人信息保护,经个人授权后进行处理。至于是普遍授权公开还是对特定处理者授权,是一揽子授权还是单次授权,由个人自决。同时,个人数据出境也有限制,主要是达到一定量的个人数据(不含敏感个人数据)出境100万人以上的需要申报数据出境安全评估,10万人以上、不满100万人的需要订立个人信息出境标准合同,或通过个人信息保护认证。对于关键信息基础设施运营者则都需要申报数据出境安全评估。
非敏感法人/组织数据需要受到涉私数据保护,经法人/非法人组织授权后进行处理。同样,是普遍授权公开还是对特定处理者授权,是一揽子授权还是单次授权,由数据来源者自决。
非涉私数据没有数据来源者,与个体无关,与隐私保护、涉私数据保护无关。
对涉私数据的处理需要数据来源者知情、同意,即获得数据来源者的授权和相关权益的让渡。因此,对涉私数据的处理需要建立动态授权模型,即通过数据产品化,在数据产品使用场景中触发实时授权请求,让数据来源者能够在应用场景中便利地实时授权,通过智能合约自动执行授权要求,各个来源数据能够向数据产品瞬间组装,数据产品能够瞬间集成,数据产品服务能够瞬间输出。
(三)数据公共属性的开放共享
数据是为利用而生的。在数据主权属性、人身属性对数据的限制性规制之后,数据公共属性则是要让数据开放共享和利用起来。
数据共享的广义用法泛指任何数据处理者之间的数据共享,这是数据公共属性希望趋向却又难以达到的目标。数据共享的狭义用法特指数据在单个机构内部的共享,包括作为整体政府的各公共机构(尤其是政务机构)之间的共享。数据依据公共属性分类,除了不予共享,就是(广义的)数据共享。(广义的)数据共享可以分类为:一是(狭义的)数据共享,即在作为整体的单个机构(或整体政府)内部共享;二是数据普遍开放,即对社会普遍开放,包括无条件开放和有条件开放——由于条件将会通过智能合约实现“秒审”而自动执行,有条件开放会演变为无条件开放或下面的第三类(开发开放);三是数据开发开放,即通过数据产品化,数据嵌入到数据产品在应用场景中开放利用。第二和第三类又可以合称为数据开放。
对于公共数据,(狭义的)共享、开放是公共机构的义务,应扩大普遍开放,不能普遍开放的,通过开发开放实现最大范围的公共数据开放利用。
对于社会数据,鼓励数据持有者开放数据,主要是通过开发开放方式实现(广义的)数据共享。
(四)数据价值属性的权益保护
数据为利用而生,只有在直接和间接的应用中才能发掘数据的价值属性。数据价值化通过数据处理行为才能达成。根据《数据安全法》《个人信息保护法》的原则,只要不违背数据主权属性、人身属性、公共属性的要求,数据处理行为便都是允许的。由此也诞生了数据处理者的“三权”,即数据持有权、数据加工使用权和数据产品经营权,在“数据二十条”中给予了明确。国家数据局等部门发布的《关于促进企业数据资源开发利用的意见》明确:企业对其在生产经营过程中形成或合法获取、持有的数据,依法享有法律法规规定的、民商事合同或行政协议约定的各类数据权益。这事实上是明确了数据处理者“三权”的来源,即合法获取、持有即享有各类数据权益,自然也就无需其他机构登记确认。当然,这也就赋予了数据处理者数据产品开发的自主权。
数据价值化在于应用,而数据产品是从数据到应用的唯一桥梁。因此,依据数据价值属性,对数据进行分类分级,就只能从与数据产品直接或间接的关系来衡量数据价值的高低:一是嵌入数据产品的数据,即数据产品的来源数据,可以直接从数据产品价值中分有数据价值;二是未嵌入数据产品的数据,没有应用便没有直接价值;三是人工智能训练数据,虽然没有在应用场景中直接应用,但是作为人工智能模型的训练素材,在人工智能的应用中具有间接价值。这第三类数据可以单列出来,不过本质上说,可以归入第一类,即作为间接嵌入数据产品的数据,可以视为作为人工智能模型的数据产品的来源数据,因为人工智能模型以及在此基础上的智能体都符合数据产品的定义,可以看作数据产品。
数据产品价值决定来源数据(即数据资源)价值。这也就意味着,数据产品市场决定数据要素市场。当然,随着产品市场的发展,要素(数据资源)市场也会随之呈现出相对独立性。市场会根据类似数据资源嵌入数据产品获得的价值来衡量数据资源的价值,从而形成相对独立的数据资源(要素)市场,并通过数据资源的流通进一步反作用赋能产品市场。这也就意味着,数据要素作为训练数据赋能人工智能大模型也是可以先于基于大模型的数据产品生产的。
数据价值需要得到保护,一方面是对数据产品价值和数据产品来源数据价值的保护,另一方面是对数据处理者“三权”的保护。同时,鉴于数据产品以及数据原子能力(作为经过加工的来源数据)中都含有一定的模型、算法或匿名化等技术,事实上具有知识产权特性,还需要对其进行知识产权保护。[18]例如训练数据,可能就含有知识产权问题,需要体现知识产权价值。这些权益的保护都需要体现在相应数据产品和来源数据的价值上,即体现在价格和收益分配上。
二、面向人工智能应用的数据安全治理
(一)数据多维治理架构
治理维度 |
数据分类 |
敏感分级 |
治理措施 |
主权属性 |
涉密数据 |
极高敏感 |
物理隔离,国家秘密管理。 |
核心数据 |
高敏感 |
存储、传输、访问等管控,不出境。 |
|
重要数据 |
敏感 |
存储、传输、访问等管控,限制出境。 |
|
一般数据 |
非敏感 |
基础安全管理,可出境。 |
|
人身属性 |
个人私密数据 |
敏感 |
隐私保护,知情-同意,限制出境。 |
法人/组织商业秘密数据 |
敏感 |
商业秘密保护,知情-同意。 |
|
个人非私密数据 |
非敏感 |
知情-同意,限制出境。 |
|
法人/组织非私密数据 |
非敏感 |
知情-同意。 |
|
非涉私数据 |
非敏感 |
基础安全管理。 |
|
公共属性 |
可开发开放数据 |
敏感 |
依托可信数据空间进行数据产品化实现开放。 |
可普遍开放数据 |
非敏感 |
普遍开放。 |
|
价值属性 |
嵌入数据产品的数据 |
高价值密度 |
数据价值保护,知识产权保护。 |
其中:人工智能训练数据 |
低价值密度 |
数据价值保护,知识产权保护。 |
|
未嵌入数据产品的数据 |
无价值 |
基础安全管理。 |
第一部分我们从数据四大属性,也就是从四个维度分别对数据进行了分类分级,兼顾安全保护和开放利用,发掘数据价值。一般说来,一条数据是同时兼具四大属性,因而需要同时从四个维度对数据安全和开放利用进行考量,并且按照四大属性的位阶等级,优先考量主权属性,然后依次考量人身属性、公共属性和价值属性,并将相关标注信息纳入元数据管理体系中。可以采取“多层熔断机制”逐层诊断数据管控要求:
一是主权核验层,对接国家核心数据、重要数据目录实现自动检索、标注;
二是人格声明层,对于涉私数据,标注涉及的数据来源者(关联对象),并将数据纳入“关联对象数字空间”管理,在数据处理时要求数据来源者知情、同意;
三是开放共享层,区分公共数据和社会数据,并依据敏感情况,标注可普遍开放或者可开发开放;
四是风险测算层,根据上表的四个维度治理结构,评估数据敏感度,进行风险测算;
五是应急处置层,制定不同敏感度和风险级别的应急处置措施,保护、屏蔽直至删除数据。
1.管控措施就高不就低
鉴于四个维度的分类分级的交叉重叠,数据需要在多重保护下开放利用。对同一条数据,管控方面不相同的,例如既是个人数据,又涉及持有者的知识产权,管控措施便“既要……又要……”,也就是各个方面的管控都要到位;管控方面相同的,例如针对出境管控,既是重要数据,又是个人数据,管控措施便就高不就低。
通过管控措施的叠加,切实加强数据安全治理,特别是涉及核心数据、重要数据的安全治理,确保主权安全,包括生物安全等。例如对于重要数据出境,需要申报数据出境安全评估。
2.开发利用就宽不就严
在严格管控措施的前提下,开发利用就需要就宽不就严,鼓励开发,鼓励创新。
关于重要数据的利用,在存储、传输、访问控制等安全措施加持下,重点遵照国家网信办《促进和规范数据跨境流动规定》进行数据出境管理。
在此基础上,重要数据的利用,一方面是不影响数据在境内的开发利用,鼓励通过有严格安全管控措施的可信数据空间等数据基础设施充分利用重要数据,鼓励嵌入重要数据的数据产品开发利用;另一方面是针对数据出境,按照规定限定的数据量进行管控,在管控下开发利用,并让数据出境传输量接受监管。同时,自贸区可以充分利用制定负面清单的政策,加强重要数据出境的管理和开放。
关于涉私数据的利用,关键在于数据产品化,将涉私数据嵌入数据产品中,让数据来源者能够在应用场景中实时授权、实时获得服务。
涉及涉私数据出境的情形,就法人/非法人组织数据而言,并无限制;就个人数据而言,按照《促进和规范数据跨境流动规定》,特定个人信息处理情形可免予申报数据出境安全评估、订立个人信息出境标准合同、通过个人信息保护认证:
(1)为订立、履行个人作为一方当事人的合同,如跨境购物、跨境寄递、跨境汇款、跨境支付、跨境开户、机票酒店预订、签证办理、考试服务等,确需向境外提供个人信息的;
(2)按照依法制定的劳动规章制度和依法签订的集体合同实施跨境人力资源管理,确需向境外提供员工个人信息的;
(3)紧急情况下为保护自然人的生命健康和财产安全,确需向境外提供个人信息的;
(4)关键信息基础设施运营者以外的数据处理者自当年1月1日起累计向境外提供不满10万人个人信息(不含敏感个人信息)的。
以上四种情形下,个人数据可以出境。此外,还需积极拓展个人数据脱敏即可满足要求的应用场景,通过数据产品化实现“数据不出境、可用不可见”。
3.积极探索数据隔离、数据解耦、数据脱敏等措施
统筹好数据安全治理和开发利用,必须依托完善的数据基础设施(数据平台)。
对核心数据、重要数据探索“主权沙箱”,特别是关键信息基础设施运营者,更需要依托可信数据空间建立“主权沙箱”,原始数据全程隔离,外方通过部署算法模型在“主权沙箱”的密闭计算环境进行分析,输出结果,中间还可采用同态加密、联盟学习等隐私计算技术。这样,不必对大量原始数据进行出境安全评估,而仅需评估服务结果的出境安全即可,从而大大降低数据出境的壁垒,发挥数据价值。
针对涉私数据特别是个人数据,采取可信数字身份认证机制,实现个体身份信息与个体业务信息的关联和解耦,包括各功能角色的解耦,认证和应用的解耦,数据和应用的解耦。可信数字身份认证平台只掌握个人/法人/组织的身份信息,但不掌握个体的应用信息、业务信息等;数据处理者只了解各自服务范围内真实个体的相关应用数据,据此提供服务就好,但是具体是哪个个体不需要了解。应用场景中需要建立关联时,由数据来源者(关联对象)进行授权。
这事实上正是基于可信数据空间(数据基础设施)的“可控匿名化”措施。在可信数据空间内,与身份认证解耦的应用信息、业务信息不再是涉私数据,不必授权便可以进行数据处理,只有在形成数据产品面向应用场景需要落实具体服务对象时,在数据来源者授权下,应用信息、业务信息和身份信息建立关联,数据产品才对服务对象提供个性化服务。
针对可信数据空间内的涉私数据,平台运营者还可以主动对数据进行“可控匿名化”处理,将身份信息和应用信息、业务信息解耦,形成与原始数据结构一致的逻辑真实数据,从而便利数据处理者进行数据治理探查、数据产品开发。
上述机制同样使得不必对大量原始数据进行出境安全评估,而仅需评估服务结果的出境安全即可,从而大大降低数据出境的壁垒,发挥数据价值。注意在这些机制中,贯穿始终都需要落实零信任机制,强化安全认证,也需要同步建设好关联对象“数字空间”,打造数字公民。
三、兼顾大模型数据安全、隐私保护和数据利用
1.从主权属性角度考虑的数据利用机制
针对通用大模型,核心数据、重要数据、个人数据不可用。利用这样的数据只能是针对大模型的私域部署,并且在私域数据中利用了核心数据、重要数据、个人数据的话,还需要落实严格的用户管理措施,以符合对核心数据、重要数据、个人数据的相关法律法规要求,即:涉及核心数据的,禁止境外用户;涉及重要数据和个人数据的,限制境外用户数量和使用数量。
2.从人身属性角度考虑的数据利用机制
针对通用大模型,原则上应全面禁止涉私数据利用。针对大模型的私域部署,也不能直接使用涉私数据。只有在数据来源者对数据处理“知情-同意”之下,涉私数据才可以利用。
涉私数据的利用机制在于使用“可控匿名化”的逻辑真实数据,在大模型的私域部署下,利用逻辑真实数据对大模型进行微调优化,或利用RAG优化大模型的推理。
利用涉私数据关键是要解决涉及到个体的应用问题。涉私数据利用机制的核心是将涉私数据嵌入到面向应用场景的数据产品和智能体之中。采用逻辑真实数据的更大价值在于依托私域部署的大模型支撑嵌入实时逻辑真实数据的数据产品和智能体开发和应用。数据产品和智能体在应用中基于数据来源者授权,将嵌入其中的逻辑真实数据还原为真实数据,从而实现大模型支撑的涉私数据个体化利用。
3.从价值属性角度考虑的数据利用机制
人工智能大模型利用数据涉及第三方的数据权益或知识产权,应取得权益方的授权或形成商业合同,分享利益。
4.数据平台和大模型的融合是数据利用的基础
既然对于核心数据、重要数据、涉私数据,都只能在私域部署下才有利用的可能,并且需要加强用户管理,对涉私数据还需要“可控匿名化”机制,这个私域的“域”就只能是以可信数据空间为核心的数据基础设施(数据平台)。随着大模型在数据平台的部署,数据基础设施和人工智能基础设施实际上在可信数据空间中便融合为一体了。这就是对大模型做私域部署的基础,也是核心数据、重要数据、涉私数据为大模型所利用的基础。因而,可信数据空间为核心的数据平台对大模型的精准利用和落地发展具有关键作用,核心数据、重要数据、涉私数据等高质量数据集都要依托可信数据空间才能落地利用。
5.几个需要重点关注的问题
第一,厘清空间数据边界。近期低空经济发展引人注目,而低空经济本质上属于数字经济。关于低空经济数据的分类分级管理问题迫在眉睫。
从数据安全的主权属性角度,低空经济数据同样要按照核心数据、重要数据、一般数据进行分类分级。涉及国家安全或重大公共利益,如军事禁飞区数据、国家级低空管制系统数据等,属于核心数据,任何未经授权的数据采集行为都被严格禁止,授权采集的数据要严格管控,因为这些区域的数据一旦泄露,可能直接危及国家政治安全。可能危害经济运行或公共安全的数据,如政府机构、关键基础设施(如机场、电网、通信基站)周边的数据,大规模无人机集群控制数据,涉及10万人以上的个人飞行记录等,属于重要数据。在公共空域,数据的敏感度相对较低,属于一般数据,但仍需遵循一定的规范进行管理,以保障公众利益和空域的正常使用秩序。
但是低空经济数据管理比这还要复杂。低空经济数据也会涉及数据人身属性,需要考虑涉私数据保护。如无人机可能采集、标注到人、车等个人信息,可能涉及私宅,可能涉及法人/组织内部空间及相关布局。此外,还有相关人员的飞行轨迹等个人数据、相关运输货物等涉企数据。这些数据都需要作为涉私数据进行相应保护,即在数据来源者“知情-同意”下进行处理。
类似的,城市空间的图像、视频采集设备获取的相关数据,也需要分类分级管理。即将于2025年6月1日起施行的国家互联网信息办公室、公安部联合公布的《人脸识别技术应用安全管理办法》就做了相应规定。
第二,开展脱敏利用。公共数据用于大模型有特殊的难点,这是因为公共机构、公共数据运营机构一般都属于关键信息基础设施运营者,其掌握的平台、数据基本都属于重要数据范畴,向境外提供任何个人信息或重要数据,必须申报数据出境安全评估。相关数据如果用于大模型训练,确实会导致数据结果出境的风险。必须对这些数据进行数据脱敏处理,只能依托公共可信数据空间来支撑大模型,利用“可控匿名化”的逻辑真实数据来支撑大模型训练,同时加强对模型输出结果的管理,以及对模型的用户进行管理,以符合数据出境安全评估要求。事实上我们在这里是做了两方面的措施,以便统筹好安全和利用。一是对关键信息基础设施进行精细化管控,厘清边界,重点保护逻辑真实数据的映射表,而将逻辑真实数据视为匿名化数据(非涉私数据)。二是将数据出境安全评估从源头数据利用转移到对模型输出数据的评估和管控。
第三,加强使用控制。利用公共数据等重要数据的大模型,在使用层面进行控制。主权属性方面,控制跨境使用次数,满足重要数据限制出境相关要求。人身属性方面,依据场景,由数据来源者授权使用——都是通过数据产品化使用,即使用大模型支撑的数据产品或智能体,涉及涉私数据,由数据来源者授权。
第四,强化数据隔离、解耦。《个人信息保护法》对个人信息的去标示化、匿名化的定义基于通常理解的技术手段,并没有考虑到人工智能大模型等新技术的强大能力。基础通用大模型可以利用已经在互联网主动公开的个人数据进行训练,对个人其实是有所了解的,再综合多维度的匿名化的个人数据,是有概率性的可能反推出个人隐私信息的。如果不希望大模型从匿名化的数据中反推出隐私信息,就还需要“魔高一尺道高一丈”,有更多机制、更强技术来加强数据保护。
这就需要尽量采取强化数据隔离、解耦等措施。针对涉私数据,不建议集中归集存储,不建议以这样集中、综合的数据形态提供给大模型,包括让大模型微调、强化学习、RAG等,即使是采取只提供样例数据、逻辑真实数据的方式,也存在一定风险。一是需要数据来源分散,个体身份信息与个体应用信息、业务信息隔离和解耦,不同应用、不同业务、不同功能的信息也要隔离和解耦,并针对大模型服务的领域,只提供相关领域应用数据、业务数据,而不提供不相关领域的数据,以避免大模型综合反推隐私信息。二是涉及个体应用的数据产品和智能体也要分散化,不同的数据产品和智能体针对不同的应用,相对独立,针对多场景的综合应用,则采取多产品、多智能体协同网络相互调用结果方式提供服务,而综合性的、通用的数据产品和智能体主要面向非个体应用场景,不用到涉私数据。三是必要的话还可以采用联邦学习、隐私计算、数据沙盒等方式,进一步强化数据安全管理。
第五,防范区块链穿透。当前,数据产品(数据资产)的通证化已经开始,并且渐成热点,例如RWA(现实世界资产通证化)。这类基于公链的数据应用,存在数据跨境穿透的风险。未来的多智能体协同网络也会通过区块链跨境穿透、互动。需要加快研究监管措施。基本思路可能是采取可控去中心化方式,即在国家主权层面的中心化和局部的去中性化结合。