睿治

智能数据治理平台

睿治作为国内功能最全的数据治理产品之一,入选IDC企业数据治理实施部署指南。同时,在IDC发布的《中国数据治理市场份额,2022》报告中,蝉联数据治理解决方案市场份额第一。

6000字解析数据分类与分级概念

时间:2022-05-11来源:郁金浏览数:356

“国家数据安全工作协调机制统筹协调有关部门制定重要数据目录,加强对重要数据的保护。


数据是信息的载体,数据不是死的,而是在不断地流动,并产生了巨大的商业价值。对数据而言,开放才有意义,但开放的前提则是安全。由于不同类型的数据,其级别和价值均不同,不能等同视之,应根据数据的重要性、价值指数,予以区别对待,因此数据安全法提出建立数据分类分级保护制度。

数据分类是为了规范化关联,分级是安全防护的基础,不同安全级别的数据在不同的活动场景下,安全防护的手段和措施也不同。比如关系国家安全、国民经济命脉、重要民生、重大公共利益等数据属于国家核心数据,将实行更加严格的管理制度。

分类分级是数据全流程动态保护的基本前提,不仅是数据安全治理的第一步,也是当前数据安全治理的痛点和难点。数据安全建设需要针对数据的收集、存储、使用、加工、传输、公开等各个环节,进行数据安全风险的监测、评估和防护等,需要用到权限管控、数据脱敏、数据加密、审计溯源等多种技术手段。只有做好了数据分类分级工作,才能进行后续数据安全建设。

01 数据分类分级的痛点问题和挑战1、数据分类面临的痛点问题和挑战

1)如何选择分类维度的问题

对于数据进行分类可以有很多维度,包括基于数据形式和数据内容等。基于数据形式可以按照数据的存储方式、数据更新频率、数据所处地理位置、数据量等进行分类;数据内容可以根据数据所涉及的主体、业务维度等多个维度进行分类。不同维度各有价值,如何选择一个维度对数据进行分类需要考虑数据分类的目的,但很多时候大家都希望通过一个分类维度实现多个目标,或者将两个分类维度混合进行分类。分类维度的不清晰会导致后续基于分类的很多操作都存在问题。

2)单一分类维度下的类别划分问题例如,基于内容进行分类的维度,面临数据可能分类不全、类别不清晰的问题。主要原因是大范围内的内容分类是一个很复杂的问题,甚至可能涉及知识分类的问题,这在目前还是一个较为难以解决的问题。类别划分有问题会导致有些数据无法分到一个分类下,而有些数据又同属于两个分类。

2、数据分级面临的痛点问题和挑战

1)定性到定量的问题针对信息资源的分级,需要根据信息内容确定。目前尚无科学的方法和范式支撑构建信息内容的数学模型,因此很难准确定量地进行数据内容描述。举个例子,我国目前已有一些针对政务信息资源的安全级别描述,如下表。其中有按损害影响程度进行的数据定级,但没有关于影响程度定量的描述,所谓针对公民的损害,是造成财产损失还是身体伤害?造成什么量级的财产损失?这样的描述难以在实际操作过程中给定级的人员准确的依据去判断政务信息资源属于哪一个级别。

信息来源:《信息系统安全等级保护定级指南》、《中华人民共和国保守国家秘密法》

2)分级的级数问题在政府部门进行政务信息资源分级时,需要找到一个合适的级数,使得在使用过程中达到效率和安全管控的平衡。过多的分级会给实际使用带来困难,太少的分级又会使得管控难以准确地约束数据。目前针对不涉密的政务信息资源主要分为非密和内部两级,但是在实际使用过程中这两个级别并不能满足对于数据处理的需求,并不是所有非密的数据都适合让公众知晓,也不是所有内部数据都只能政府部门使用,因此将不涉密的的政务信息资源只简单的分为两级是不合适的。

3)分级的粒度问题

在进行分级的时候,分级的粒度是影响分级效果的主要因素之一。以什么样的粒度进行分级才可以既达到分级防护的目的,同时不影响正常的业务仍是一个有待进一步研究明确的问题。政府部门的信息资源涉及各行各业,数据存储的格式众多,有文件、表、行列、字段等不同的数据粒度。不同行业中影响信息资源级别的属性要素也不一,例如地理信息资源地图的比例尺和所包含的地图元素是影响信息资源的级别的关键因素。

4)分级的有效落实问题有些地方政府专门成立了大数据管理部门,来规范政府部门对信息资源的共享使用,也出台了相关的数据共享条例、数据安全保障条例等,但是还缺乏完整的流程和环节来完成从数据梳理、数据分类分级到数据存储保护、数据共享使用。现有的数据使用模式,是以部门为单位,各自负责自己所拥有的数据,因此相应的规章制度更多注重部门内部,缺乏跨部门的数据使用规范。目前相对成熟的跨部门的具体数据规范主要是公安部门的人口库信息,但是其他部门相对较弱。

5)数据的升降级方法问题

政务信息资源是动态变化的,因此数据会发生合并、摘抄等简单操作,也会进行分析融合等复杂操作。这些操作会对已经进行了分级的政务信息资源的级别产生变化。而由于政务信息资源众多,不同部门对信息资源的使用方式、需求粒度都不统一,信息资源的级别发生变化时,人工重新判定的标准难以统一,也无法完全以自动化的方式进行。

02 数据分类概念解析

在数安法和条例(征求意见稿)里都没有对分类和分级进行定义,在一些标准或指南里也是直接提出分类和分级的方式,但没有对其进行定义。我梳理了一下有定义的一些标准,有:

标准 相关定义
ISO 15489-1:2016 信息和文档-记录管理-第1部分:概念和原则 ISO/DIS 4669 文档管理-信息分类、标记和处理 classification: 依据逻辑结构约定、方法和过程规则,系统化地对业务活动/记录/信息资产进行识别和/或安排到类别中
国家标准《GB/T 38667-2020 信息技术-大数据-数据分类指南》 大数据分类big data classification: 根据大数据的属性或特征,将其按一定的原则和方法进行区分和归类,并建立起一定的分类体系和排列顺序的过程
贵州地方标准《DB 52/T 1123-2016 政府数据-数据分类分级指南》 政府数据分类 government data categorization: 根据政府数据的属性或特征,将其按照一定的原则和方法进行区分和归类,并建立起一定的分类体系和排列顺序,以便更好的管理和使用政府数据的过程
综合以上的定义或表述,可以将数据分类的定义归纳为:根据数据的属性或特征,按照一定的原则和方法进行区分和归类,并建立起一定的分类体系和排列顺序,以便更好的管理和使用数据的过程。因为数据天然具备不同的属性和特征,也必然存在不同的管理主体,出于不同的管理目的、基于不同的数据属性或特征对数据采用不同的分类方法。例如:对于一个打工人的数据来说,有毕业学校及专业、工作部门、户籍地址等等各种各样的属性,出于不同的管理目的,可以用不同的属性来作为数据管理的主分类方式: 就学校来说:院系、专业、班级等可以作为学生管理数据的一个主分类方式; 就工作单位来说:工作部门的层级(一级部门、二级部门…)可以是员工管理的一个主分类方式; 就社区来说:居住省份、地市、区县、社区、居委会可以是居住人员管理的一种主分类方式。 因此数据分类一定是以各种各样的方式并存的,不存在唯一的分类方式分类方法的采用因管理主体、管理目的、分类属性或维度的不同而不同。因此,我们在实践中可以看到各种各样的分类,例如: 从业务开展使用数据的视角,看到的是数据的业务特征,比如某企业内有研发、制造、销售、人力资源等部门,大量数据的产生天然就具备业务相关的特征,很自然的数据分类方式就是按业务分类:研发数据、制造数据、销售数据等等。 从IT部门/数据管理部门视角,关注的不是业务分工,而是数据自身在IT系统里如何承载、管理、呈现,所以有IT/数据管理部门将数据分类为结构化数据、非结构化数据,主数据、交易数据、元数据等。 工信部《工业数据分类分级指南(试行)》里提到的分类方式是:”工业数据分类维度包括但不限于研发数据域(研发设计数据、开发测试数据等)、生产数据域(控制信息、工况状态、工艺参数、系统日志等)、运维数据域(物流数据、产品售后服务数据等)、管理数据域(系统设备资产信息、客户与产品信息、产品供应链数据、业务统计数据等)、外部数据域(与其他主体共享的数据等)“

在组织内,业务部门有业务部门的数据分类方法,作为安全管理部门来说,数据分类必然也是要服务于安全管理的目的,而最重要的安全管理目的就是能够指导对数据进行分级,然后基于分级进行相应的安全防护和管控。

03 数据分级概念解析

先看看分级是如何定义或表述的:数据安全法第二十一条 国家建立数据分类分级保护制度,根据数据在经济社会发展中的重要程度,以及一旦遭到篡改、破坏、泄露或者非法获取、非法利用,对国家安全、公共利益或者个人、组织合法权益造成的危害程度,对数据实行分类分级保护。 网络数据安全管理条例(征求意见稿)第五条 国家建立数据分类分级保护制度。按照数据对国家安全、公共利益或者个人、组织合法权益的影响和重要程度,将数据分为一般数据、重要数据、核心数据,不同级别的数据采取不同的保护措施。 在国家标准《GB/T 25069-2010信息安全技术术语》中,没有定义信息或数据分级,但有安全分级的定义,其内涵实际上是包括了信息的分级:安全分级(security classification):根据业务信息和系统服务的重要性和受损影响,确定实施某种程度的保护,并对该保护程度给以命名。依据访问数据或信息需求,而确定的保护程度,同时赋予相应的保护等级。例:“绝密”、“机密”、“秘密”。 单从分级的定义和表述来看,非常明确,数据分级就是依据数据的重要程度和影响程度进行的,分级的结果就是区分出了不同等级,进而进行不同等级的保护。

但将分类分级放在一起谈的时候,就引起了分类和分级之间关系的争议和分歧。

04 数据分类与数据分级关系看上面引用的关于分类分级的条文,不知是否注意到了一个细节,同样是在讲分类分级保护制度: 数据安全法里第21条的提法是分类分级 而到了网络数据安全管理条例(征求意见稿)的第5条里,只提了分级而没提分类 另外,在网络安全法提到数据保护时,以及个人信息保护法里,都是没有提分级,只提了分类。 网络安全法第21条第四款:采取数据分类、重要数据备份和加密等措施 个人信息保护法等51条第二款:对个人信息实行分类管理 可以看到在法律法规、标准指南里有时提分类、有时提分级、有时分类分级并提,这正是对于分类和分级引起困惑和讨论的地方。从本文前面的分析得出的结论:分类是根据数据的属性或特征进行的,也必然存在不同的管理主体,出于不同的管理目的、基于不同的数据属性或特征对数据进行不同的分类方法。再看一下数据安全法第21条和网络数据安全条例(征求意见稿)第5条的表述,都提到了依据数据的重要程度和影响程度,重要程度和影响程度正是安全监管部门(对于国家来说)和安全管理部门(对于组织来说)关注的,重要和影响程度是数据的众多属性之一,分级的目的是分等级保护和管控。因此,笔者认为可以得出结论:

1. 首先从分类分级的目的和概念上、跳出安全管理范畴站在更高的视角来说: 分类和分级并非简单并列的关系,分类是外延更广、应用范围更广泛的概念,分类可以有多种依据。 分级是安全管理部门、为了安全保护和管控的目的,依据重要性和影响程度而进行的分类,这种分类结果有等级差异。 其它管理主体、为了其它管理目的、依据其它属性和特征进行分类是一般意义上的分类,这种分类结果是没有等级差异的。 换个表达方式说,依据数据的重要性和影响程度进行的分类就是分级,分级是多种分类方式中的一种。 基于上面的认识,当我们默认是在安全保护语境内谈论数据安全问题时,分类分级实质上是一回事,安全分类=分级。这或许正是有时讲分类、有时讲分级、有时合并一起讲分类分级,虽然没有定义,但都知道在说什么的原因。“分级是分类的一种方式”的看法,从DAMA (国际数据管理协会)的DMBOK (DAMA数据管理知识体系)里的表述可以得到印证。DMBOK没有对数据分类进行定义,但在说明数据分类时表示:任何管理系统都需要对被管理对象进行分类,数据可以依据数据类型 (type of data,例如:事务数据、参考数据、主数据、元数据等)、或数据内容(例如:数据主题领域)、或数据格式、或数据所需的保护级别,也可以依据如何以及哪里保存和访问数据来分类。 从上面这段话可以看出,DMBOK认为分类可以有多种依据,其中之一就是数据所需的保护级别。DOMBOK说的依据数据所需的保护级别,与前面分析中提到的依据数据的重要性和影响程度实质是一回事,如果实在要说区别,可以说依据重要性和影响程度可以得出所需保护级别。总之,这里的含义就是:依据数据所需保护级别进行分类就是分级,分级是多种分类方式中的一种。既然说安全分类=分级,是否可以只谈分类或分级?笔者认为这涉及到另一个视角的问题了。

2. 其次,在安全管理的视角、开展工作层面来说,不论是分类还是分级,目的都只是一个,区分出保护等级。

场景1:在安全管理视角下,只谈分类或只谈分级,这种场景下的分类默认是安全分类,谈分类等于谈分级例如在个人信息保护法中,只提出了要对个人信息进行分类管理,虽然没有明确说如何分类,但实际是分了两类:一般个人信息、敏感个人信息。从对敏感个人信息的定义上可以看出,本质上是依据对个人影响程度的等级差异,因此这个既是分类,也是分级,其结果也是需要进行分等级的保护和管控。如处理敏感个人信息需要取得个人的单独同意就是比一般个人信息要求更高的管控;在实践中,对敏感个人信息通常也会采取比一般个人信息更高等级的安全保护措施,包括更严格的访问控制、加密等。

场景2:在安全管理视角下,将分类和分级视为两个不同的活动,那么这种场景下分类是过程或方法,分级是结果或目的。例如在美国的国家安全保密信息总统行政令里,对于classification有两个概念,一个是classification  categories(分类目录),文件中给出了军事、情报、科技等8个类别;另一个是classification level(分类级别/分级),就是绝密、机密、秘密3个等级。并且明确指出将政府信息列入classified必须满足的条件之一就是落入8个指定目录类别中的一个或多个。在这里,分类显然是分级的一个条件或前置步骤。这8个分类目录显然并非是政府信息的目录类别的全部。比如,在受控非机密信息(CUI,Controlled Unclassified Information)中,信息的分类目录就有20个大类(如能源、金融等)和125个子类。因此,我认为,从安全管理视角的分类目的是为了方便将业务数据进行分级的一个步骤或过程,其分类和业务的总体分类有很强的相关性,但不一定完全等同。根据数据安全法的要求,各地区、各部门需要制定重要数据目录,可以认为,这个目录就是分类目录。因为后来又出来个核心数据。那么对于组织来说,根据核心数据、重要数据目录去识别具体的数据是核心数据、重要数据还是一般数据的过程就是定级过程。通信行业行标《YD/T 3751-2020 车联网信息服务-数据安全技术要求》中,是先将数据分类为基础属性类、车辆工况类、环境感知类等以及若干子类,然后每类数据中都再分了一般数据、重要数据、敏感数据三个等级(注,此重要数据非数安法里的重要数据)。对于个人信息保护方面,通信行业行标《YD/T 2781-2014 电信和互联网服务-用户个人信息保护-定义及分类》中将用户个人信息先分为用户身份证明类信息、用户数据和服务内容信息、用户服务相关信息等3大类6子类13细类,然后在《YD/T 2782-2014 电信和互联网服务-用户个人信息保护-分级指南》里对每个细类分配给5个不同的敏感等级,比如用户身份证明细类中的身份证复印件分级为最高的敏感等级5级,用户级别资料细类中的身份证号分级为到敏感等级4级。

05 总结在当前的研究和实践中,一般可将数据分为涉密数据、重要数据和个人信息三大类。《数据安全法》着重提到了对重要数据的保护。“国家数据安全工作协调机制统筹协调有关部门制定重要数据目录,加强对重要数据的保护。”重要数据有特定的属性。结合本法对“国家核心数据”的规范,以及《数据安全管理办法(征求意见稿)》、《重要数据识别指南》等相关标准和制度工作中对“重要数据”的阐述,一般是指:关系国家安全、国民经济命脉、重要民生、重大公共利益等数据,一旦泄露可能直接影响国家安全、经济安全、社会稳定、公共健康和安全,例如未公开的政府信息,大面积人口、基因健康、地理、矿产资源等。

(本文来源网安寻路人,作者洪延青,经数据学堂整理编辑)

<END>


(部分内容来源网络,如有侵权请联系删除)
立即申请数据分析/数据治理产品免费试用 我要试用
customer

在线咨询