睿治

智能数据治理平台

睿治作为国内功能最全的数据治理产品之一，入选IDC企业数据治理实施部署指南。同时，在IDC发布的《中国数据治理市场份额》报告中，连续四年蝉联数据治理解决方案市场份额领先。

在线免费试用 DEMO体验视频介绍

睿治智能数据治理平台

IDC蝉联数据治理解决方案市场领先

详解6G系统数据治理方案的设计要点和原则

时间：2022-02-17来源：初暖下浏览数：626次

导读：今天的数字化社会中，数据非常重要。未来6G系统将会产生、收集和交换大量的数据。各种运营管理任务，比如配置、性能监控、故障管理，都需要用到这些数据。这些数据还将作为知识经验与其他系统和业务领域交流，产生更广泛的价值。只有通过这样的交流，移动通信系统才能帮助垂直行业以及其他行业取得更大发展。

数据的使用范围不同，数据治理本身不论是经济内涵还是技术内涵也不同。数据治理是指通过相关流程和技术，对数据进行管理、维护和深度开发，获得可以作为组织关键资产的高质量数据。每个移动网络运营商（Mobile Network Operator，MNO）将移动通信系统中产生的数据按技术域隔离并单独存储，这些技术域包括无线接入网（Radio Access Network，RAN）、核心网（Core Network，CN）、传输网（Transport Network，TN）以及运行、管理和维护（Operation, Administration, and Maintenance，OA&M）等。不同网元、不同参与者拥有的数据不够公开透明，由此带来的数据孤岛是数据采集和共享中的主要瓶颈。另一方面，大型OTT（Over-The-Top）业务公司在数据治理和变现策略方面（如数据存储、分析服务、API接口）积累的专业知识远远领先于电信领域公司。6G系统的数据治理方案将为AI和感知业务提供有力支持，将催生新的业务方式和系统特性。

01 设计要点和原则

数据治理的范围远不止是传统的数据采集与存储。总体上，系统设计需要考虑四个方面，如图1所示。

▲图1 数据治理的设计要点

1. 数据可获得性和质量

数据可获得性和质量是AI能否在各行业中得到应用的最大挑战之一。提高数据的可获得性，意味着数据不能仅仅来自单个系统、单个领域，而需要同时来自多个系统的不同领域。这就提出了一个根本问题：如何打破（多厂商、多运营商、多行业之间的）物理边界，让数据进入异构数据海洋？一旦收集并利用了原本分散且相互隔离的数据，另一个问题随之而来：如何提高数据的质量？海量数据的获取，并不意味着获取的数据是可用的、高质量的。同时，在考虑降低数据处理计算复杂度和能耗的同时，还需要提高数据处理效率。

2. 数据主权

随着社会的全数字化转型，数据主权、数据安全和隐私的重要性空前突出，很多国家都制定了隐私保护的法律法规。服务提供商也在不断更新它们的隐私保护方案，主要国家政府也正在制定或已发布了数据管理相关的规定。例如，欧盟2018年颁布的《通用数据保护条例》（General Data Protection Regulation，GDPR）就从欧盟层面上规范了数据的使用。2019年，中国颁布了《数据安全管理办法》，与2016年颁布的《网络安全法》一起构成了中国版的GDPR。美国也正在实施隐私相关的法律，例如加州的《消费者隐私保护法》（Consumer Privacy Act）已于2020年1月正式生效。如何充分挖掘数据的内在价值，为各种业务提供精确支撑的同时兼顾隐私保护，尊重数据主权，已成为近年来的热门话题。6G系统设计应当考虑到监管的不确定性，尤其是存在于不同地区之间的监管差异带来的不确定性。

3. 知识管理

一般来说，知识可以看作是经过处理后的具有特定用途或价值的数据，可以被不同技术和业务领域的物理实体或虚拟实体直接使用。知识管理包括知识的生成、更新和开放。就知识的生成和更新来说，我们需要仔细把关数据的来源和质量，采取措施拦截不可靠甚至是恶意的数据源产生的低质量和有害数据。而将知识作为一种能力对外开放，则需要适合的平台和接口设计。

4. 法律问题

各种各样的传感器和其他技术可以实时产生数据，这让数据收集和使用越来越复杂和敏感。数据生成能力的提升不仅提供了新的数据流和内容类型，同时也引发了政策和法律对数据滥用的关注：别有用心的机构或政府可能利用这些能力达到社会控制的目的。同时，新技术能力也让普通人难以分辨技术内容的真假。比如，普通人就很难区分一段真实视频和一段“深度伪造”（deep fake）的视频。维护技术的社会利益和防止技术能力被用于实施社会控制、剥夺自由之间存在一种脆弱的平衡，如何保护这一平衡，变得愈发重要。为了识别欺诈行为、防止先进技术被滥用，需要更严格的法律和政策手段。

02 架构特点

独立的数据面是数据治理系统设计中的关键特性（如图2所示），它将为6G系统提供数据相关的通用能力，从而为6G系统内部和外部功能提供透明、高效、内生安全和隐私保护。下文将介绍基本概念和相关网络功能和业务。

▲图2 独立的数据面实现完整的数据治理

1. 独立数据面

独立数据面旨在实现6G系统的数据治理方案，它处理的数据来自不同业务实体。不论数据来自哪里，数据的整个生命周期都在这一平面完成处理，包括数据生成与收集、数据处理与分析、数据业务发放。因此，独立的数据面可以为外部商业实体（如汽车、制造和医疗等垂直行业）提供数据服务，也可以为6G系统本身（如控制面、用户面和管理面）提供网络自动化和优化服务。网络运行相关的配置、状态、日志，以及用户个人数据、传感器数据、其他各方提供的数据都是收集的对象。收集到的数据会形成丰富的数据资源，这些数据资源可以以分布式的形式被组织起来。为了防止直接将原始数据用于AI和感知等应用而导致的问题，原始数据在被使用之前通常需要预处理（如匿名化、数据格式再塑、去噪、转换、特征提取等）。为确保数据完整、过程合规，数据处理过程中所涉及的政策（如地理限制、国家或地区隐私法规等规定），不论是否来自监管层面，都默认需要遵守。将数据传递至数据面时，还需要遵守数据合同中约定的数据使用权利和义务。数据脱敏是保护隐私的关键，数据面需要提供这一服务。上述由数据面提供的所有服务，都由自包含的OA&M系统来运营管理。数据面的另一重要功能是基于数据收集、处理和编排生成知识。为了协调来自不同数据源的数据的处理和传输，知识的生产也需要按照合同要求进行。随着新的数据源、数据模型、数据主题被数据客户关注和使用，数据治理框架可以不断演进、不断充实。因此，数据治理框架的运营管理和框架的实时发展是可以并行的。由于数据面是一个逻辑概念，所以可以通过集中式分层架构实现，也可以作为一种分布在边缘或深度边缘节点上的逻辑功能实现。接下来我们将探讨数据面的一些关键要素。

2. 数据治理的多方角色

数据治理生态系统包括两个维度的角色：从数据客户到数据提供者、从数据所有者到数据管理者。不同的角色可以由不同的业务实体担任。因此，6G中的数据治理是典型的多方参与场景，使用6G系统提供的数据或知识的数据客户、6G系统的数据提供者都可能参与其中。6G可以有自己的数据治理框架，也可以在自身领域知识的基础上，与其他行业参与者一起构建数据治理框架。也就是说，数据治理框架可能存在不同的演进或发展路线。因此，不同业务实体之间在运营阶段如何确定数据权利非常重要，可以借助区块链等去中心化技术解决这一问题。

3. 数据资源

数据资源的内容非常丰富，包括结构化数据、非结构化数据、预处理数据、后处理数据、原始数据。从无线环境中高效收集数据（如移动性等用户行为数据和网络状态数据）是数据治理的前提。然后可以使用智能方法分析数据、将数据衍生的知识传输给内外部客户。因而有必要了解数据的来源。

▲图3 主要数据源类别

图3展示了6G系统中一些主要的数据源类别。 基础设施：基础设施即通信系统，包括RAN、TN和CN等各类物理和虚拟资源，以及云、边缘和深度边缘等计算资源。基础设施内部产生的数据包括计算资源信息、通信资源信息（如某一网络功能的状态）、感知信息（如来自RAN的感知信息），以及某些用户信息（如移动性信息、位置和相关上下文）。 运营支撑系统（Operation Support System，OSS）：这一层的数据包括所有OA&M相关的数据，如物理设备状态、系统运行信息、业务发放信息。 业务支撑系统（Business Support System，BSS）：这一层的数据包括所有与业务逻辑相关的数据，如客户信息、伙伴关系管理信息。更重要的还有消费者和企业客户的订阅数据，对于这些数据，他们应拥有完全所有权和控制权。 行业通信系统：6G行业应用场景中，收集的数据可能还包括行业相关OA&M数据信息、行业用户信息（如流量规律和移动性数据）以及存储在云端的业务/服务数据。此类数据的所有权应完全属于行业客户。 终端：来自终端侧的数据包括计算和通信资源、业务使用概况、感知知识等。此类数据的所有权应完全属于终端用户。

4. 数据搜集

6G中，数据治理的一个主要作用就是提供合适的方法构建数据资源，这需要合适的架构和网络功能的支持，构建数据资源的第一步是收集数据，这一步有如下几个关键动作：与数据源建立协议（如数据授权）和安全连接。接收数据收集需求，确定收集范围，根据需求确定收集的地点、时间和方式。将数据属性告知数据源。从数据源收集数据并入库。对数据库中的数据进行操作和维护。

5. 数据分析

在管理数据资源的基础上，为不同类型客户提供数据分析服务便成为可能。有如下四种数据分析服务可以提供：描述性分析挖掘历史数据的统计信息，提供网络洞察信息，如网络性能、流量模型、信道状况、用户等方面。诊断性分析可以实现网络故障和业务损伤自主检测，识别网络异常根因，从而提升网络可靠性和安全性。预测性分析利用数据来预测未来事件，如流量模式、用户位置、用户行为和偏好、资源可用性，甚至是故障。建议性分析基于预测性分析为资源分配、内容展示等提供建议。数据面提供的知识来自数据分析服务，提供的知识包括主动知识（如行动建议）和被动知识（如信息共享和客户的行动决定）。数据分析服务可以基于客户需要，并根据客户需求定制。数据面应按需多维度开放服务和数据，表1列举了可向客户提供的服务类型的示例。可以预见的是，实际的客户类型比表格中所列举的更丰富，客户对数据分析的需求和使用场景也各不相同。

▼表1 数据面提供的多维数据服务示例

6. 数据脱敏

收集和储存敏感数据，就涉及了隐私风险，需要承担隐私保护责任。数据脱敏是回应隐私关切、实现法律遵从的重要动作，对于在6G设计中支持AI和感知业务也尤为重要。特别是对于AI任务，需要考虑跨领域的设计。近来有大量关于AI领域中差分隐私（differential privacy）的研究，探讨如何将单个设备的训练数据匿名化。模型训练和AI推理过程中的数据脱敏在6G设计中必不可少。实现差分隐私的方法包括：在不影响数据统计属性的前提下为训练数据加入噪声，训练模型仍然可以捕捉到原始数据集的特征；使用加密技术，使机器学习基于加密的（而非解密的）数据进行。还有一种方法是，让设备发送模型参数，而不是训练数据，比如说联邦学习和拆分学习。在这一过程中存在一个风险，如果有完全掌握学习方法的内部人员心怀不轨，那么他可以利用模型逐渐收敛的过程构造与训练数据类似的信息。例如在联邦学习中，信息可能因此被泄露给恶意设备。不论何种学习方法，数据脱敏都是需要考虑的问题。因此，我们需要在这个前提下，思考如何处理不同学习方法之间的差异和学习方法自身的局限性。

（部分内容来源网络，如有侵权请联系删除）

立即申请数据分析/数据治理产品免费试用我要试用

上一篇：欧洲《数字服务法》草案修正：平台监管九大变化...

下一篇：通向优秀数据分析师的6个阶梯...