- 产品
- 产品解决方案
- 行业解决方案
- 案例
- 数据资产入表
- 赋能中心
- 伙伴
- 关于
时间:2025-04-29来源:数据学堂浏览数:17次
数据治理内涵:是一套管理体系
数据治理(Data Governance – DG)是企业对数据资产管理行使权力和控制的活动集合(包括计划、监督和执行 ),它是管理企业数据资源的一种方式、方法,旨在确保数据的质量、安全、合规和有效性。数据治理是企业实现数据战略的基础,是一个管理体系,包括组织、制度、流程和工具。
数据的生命周期包含了源头、处理和消费这三个阶段,数据的问题也可能会出现在这三个环节中。例如在数据源头环节,用户录入数据的规范性存在问题,导致了最终数据消费环节的数据质量低。数据表象问题的根源,可能来自于业务系统用户交互设计,乃至是底层数据库表结构设计上的缺陷。
而要想解决这些表象的数据问题,就必须解决深层次的信息化业务系统开发以及数据库表约束设计等问题。例如为了保证用户录入数据的准确性,有三种方式去设计业务系统:其一是设计前端的检验验证,避免用户做出相同的选择;其二是通过程序编写过滤判断的逻辑,筛除掉前端误入的数据,作为第二层验证;其三是通过建立约束条件,例如唯一性约束、检测约束等等来控制数据录入准确性。
因此,企业的数据治理远非使用一款单一的工具或产品就可以实现的,它是需要回到源头,对企业的组织、流程制度、业务系统、底层架构等多个方面进行排查和重构的,它是一套复杂的管理体系。
不同的利益相关者群体对数据治理的关注点不一样,因此各自的视图也不一样。其中管理者视图可以概括为“五域模型”,分别是“管控域”、“过程域”、“治理域”、“技术域”、“价值域”。
管理者视角-数据治理五域模型
管控域:在数据治理战略指导下制订企业数据治理组织,明确组织的责、权、利,岗位编制及技能要求。治理域:是数据治理的主体,明确数据治理的对象和目标。技术域:数据治理的支撑手段,指的工具平台。过程域:是数据治理的方法论。价值域:通过对数据资产的管控挖掘数据资产的价值,并通过数据的流动、共享、交易变现数据资产。
技术视角:企业大数据治理实践指南框架
数据治理体系,包括数据战略、数据治理管控体系(数据治理组织、制度、流程、管控机制、绩效体系及标准体系)、数据架构、主数据、元数据、指标数据、时序数据、数据质量、数据安全、数据集成与交换、数据开放和共享、数据资产管理能力成熟度评估以及数据价值、数据共享、数据变现等多方面。
数据治理车轮图
数据治理策略:拉式策略与推式策略考虑到数据治理工程的复杂性,有两种目的性不同的数据治理策略:拉式策略(Pull Strategy)和推式策略(Push Strategy)。
面向数据应用,是以提升数据应用过程中的数据准确性为目标的数据治理建设策略。
它强调在数据应用的过程中定位和解决问题,以数据应用项目为建设周期。具体而言,拉式策略有三个特点:
(1)自上而下
拉式策略通常以指标体系为起点,进行金字塔式自上而下的规划与建设,通过“数据流、业务流、信息流”的过程反向推动数据质量提升;
(2)数据整合
它包括多系统的数据整合、拉通、清洗、处理,以及数据仓库建设和 ETL 开发过程;
(3)数据应用
拉式策略面向数据应用。根据实际业务情况,主要解决数据指标定义标准不清晰、指标计算口径不统一、指标计算口径版本变更、数据不准确、数据上报与数据审核等数据应用场景出现的问题。
面向数据全生命周期的管理与控制,是一种体系化的数据治理建设策略。
它强调体系化的计划、监督、预防与执行,包括多年计划的数据策略建设周期。具体而言,推式策略有三个特点:
(1)体系化、系统化
推式策略不针对某个单一的、具体的数据应用场景,而是一个全面体系化的治理过程;
(2)全生命周期
它贯穿数据全生命周期的管理,例如数据采集、数据质量、数据应用、数据安全、数据分享等多个环节;
(3)立体策略
推式策略从数据治理策略(目标、范围、方法和组织 )开始,通过专业的数据治理团队进行数据治理的规划、实施和监督,通过制定数据管理流程规范从源头业务系统的构建到数据的分发、流转,包括数据安全策略与控制,最终贯穿数据资产管理、分析和挖掘的全生命周期过程。
拉式策略以数据应用需求为起点,推式策略以标准规划为起点,两种策略在多个方面有差异:
根据多数企业的实践经验,以数据应用需求为起点的拉式策略有着更短的实施周期和更低的投入成本,是一种更加灵活、更加敏捷的数据治理策略,将在下文中着重介绍这种数据治理策略。
适合多数企业的数据治理更优解:拉式策略
以提升数据应用过程中数据准确性为目标的拉式数据治理建设策略主要包括3个流程:
(1)基于指标体系的数据问题洞察
以数据指标体系为基础,围绕“数据流、信息流、业务流”三大核心逻辑,快速定位数据质量问题的源头,并通过逆向分析推动业务信息化和管理流程的优化升级。
(2)稳健的数据架构设计
通过数据仓库建模、分层设计和ETL开发等技术手段,确保数据架构的稳定性与可扩展性,从而提升数据使用的准确性。
(3)数据应用审核管控机制
建立针对高层管理的数据指标管控及审核机制,确保数据在上报和可视化分析过程中经过严格审核,从而提升数据使用的质量和准确性。
(1)数据问题洞察流程
数据问题的洞察过程可以拆解为五个关键步骤:首先是企业内部的资料收集与需求调研;接着是梳理指标体系;然后是确认可视化原型设计方案;第四步是识别“数据流—信息流—业务流”中的问题;最后是将问题暴露出来,形成数据质量提升的待办清单。在整个过程中,最为关键的是指标体系的梳理以及“数据流—信息流—业务流”的问题识别。本质上,数据问题洞察是依托数据指标体系,以“数据流、信息流、业务流”为基本逻辑框架,在限定范围内快速找到数据质量问题的根源,并通过逆向分析推动业务信息化和管理流程的优化升级。
数据流层面:
企业数据问题的洞察始于数据流层面的对指标体系的梳理。指标体系里包含指标和维度,指标即是目标,维度是数据的视角。在确定指标体系后,就需要标准化指标的定义与计算口径、计算逻辑,包括对不同计算口径的版本管理。在计算口径确认后,就需要顺着计算逻辑逐层向下追踪,查看数据能否被获取到。
信息流层面:
数据流层面出现问题,排除信息流层面存在的信息系统建设问题,还有可能是业务流层面的管理问题导致的。例如同一个指标有不同的计算口径,这就不是信息系统的问题,而是管理自身的问题,是由于部门间的冲突而导致的。从数据流到业务流的分析,企业可以通过表层的数据问题洞察到自身业务流程上存在的弊端,从而逆向完善业务管理流程和管理边界。
业务流层面:
在这样金字塔式的数据问题洞察方法下,通过阶段性、有限的指标体系框定了取数的来源范围,因此不会盲目地扩大数据治理的范围和目标。通过在限定的系统范围内洞察存在问题的数据,可以形成有针对性的数据治理策略,让问题聚焦。最后通过阶段性的识别问题、解决问题,可以由点到面、由浅及深,暴露的问题逐步解决,保障阶段性的建设成果。
在洞察到数据问题所在并进行了数据侧、信息侧或者业务侧的改善后,进行稳健的数据架构设计是拉式策略的第二个流程。这里主要涉及通过数据仓库建模、合理的分层设计、ETL 过程开发等,保障数据模型及架构的稳健性和可扩展性,从而提高数据使用的准确性。值得强调的是思考数据架构有三个出发点:稳健性、可扩展性和效率。数据仓库架构的稳健性需要通过数据仓库分层来解决;数据仓库的可扩展性要通过数仓建模、维度一致性等方式来解决;效率问题需要通过多系统数据集中、处理,从流程型数据架构转变到分析型数据架构来解决。
数据治理策略的最后一个流程是建立一个企业内部,面向高层管理者的数据指标管控及审核机制,确保数据应用过程中(上报、可视化分析)的关键数据必须经过有效审核,提升数据使用质量及数据准确性。