睿治

智能数据治理平台

睿治作为国内功能最全的数据治理产品之一,入选IDC企业数据治理实施部署指南。同时,在IDC发布的《中国数据治理市场份额,2022》报告中,蝉联数据治理解决方案市场份额第一。

谈谈主数据管理的概念、原则、标准和指南

时间:2022-02-25来源:互联网浏览数:2533

1主数据的定义和关键概念
1.1什么是主数据
主数据是不同业务领域的公共信息,并在多个业务流程中使用。主数据通常描述参与事务或事件的事物。示例包括有关课程、学生或雇员的信息。

参考数据通常用于对其他数据(如状态代码)进行分类,或与组织边界以外的信息(如国家列表)相关的信息。

相比之下,事务数据描述一个事件。事件发生后,关于事件的信息不会改变。然而,主数据很容易随着时间的推移而改变。例如,工作人员可能改变他们的姓氏,或者学生可能搬到不同的地址。

在不同的流程中重用主数据,以及数据本身缓慢变化的性质,给主数据的管理带来了挑战。

主数据管理(MDM)是一种方法,用于确保以一致、统一和准确的状态捕获、维护和引用组织的主数据,并在需要的所有流程和系统中提供这些数据。

并非所有数据都需要掌握。这些努力首先集中在广泛共享的数据上,这些数据往往源自组织外部,而非内部的概念。

上图中的客户数据在不同的数据层有不同的重点,比如核心属性有姓名、生日、身份证号,扩展属性有职业、电话号码、邮箱、住址,派生属性有收益率、客户ID、群体价值、客户价值,相关数据有导师、所修课程,社会数据有爱好、博客、动态等。

1.2主数据管理的关键概念
主数据管理依赖于识别需要掌握的关键数据领域的能力,以及围绕这些领域已建立的“主”信息源声明和维护规程的能力。通常,使用数据模型和业务术语表描述这些关键的数据领域。

唯一性指的是对于我们想要掌握的每个现实世界“事物”都有一个单一记录的状态。这意味着要使数据与现实世界保持一致。

使用唯一标识符支持唯一性。唯一标识符是一个数字,用来在一组数据中唯一地表示现实世界中的事物。例如,教职员编号或学生编号。

发布唯一标识符的行为成为主数据管理的一个关键治理点。创建(或发布)唯一标识符的过程称为起源点或注册机构。重要的是,这指的是创建信息的过程,而不是该过程产生的记录或数据,也不是支持该过程的IT系统。

主记录是指已掌握信息的指定的、权威的版本。这个主记录是由指定的起点过程创建或更新的。记录系统是一种业务系统,它支持起始点流程、发布唯一标识符、应用增加唯一性可能性的流程并保存主记录。

第二系统是这样一种系统,它需要主数据的副本才能操作,但不需要对该数据的控制过程负责。重要的是,第二系统不能覆盖或记录主信息,否则可能会导致值冲突。

“值冲突”指的是在不同的地方捕捉到关于已掌握实体的相同信息,并且记录的值不相同。例如,采集到的“Jim Smith”和“James Smith”作为某人的全名。从数据的角度来看,值冲突很难恢复——我们永远无法确定这些值中哪个是首选的、准确的或合适的默认值。

黄金记录是一种记录,被从不同的信息集重新创建成为了主要挑战黄金记录中使用一个主记录的地方,但这需要更多的努力来创建,并且不太准确。

建立黄金记录需要做出如下决定:

•当值冲突发生时,为黄金记录选择哪个值;
•当唯一性丢失时,是否合并两个或多个数据记录;
•当数据变得碎片化,必须从不同的地方获得数据时,哪些属性指向来自不同地方的数据。

记录系统的所有责任都落在创建黄金记录的过程上。

2主数据管理原则
2.1流程设计要确保主数据的准确性和一致性
在业务流程中使用主数据会导致客户或业务结果,这些结果应该基于准确和一致的数据。流程必须确保指定的受影响主数据记录系统被更新,以确保一致性。数据匹配不能代替糟糕的流程。

2.2主数据必须有一个已识别的业务所有者
业务所有者可以决定在什么级别上应用所有权,例如实体或属性级别。数据所有者有责任确保准确性和一致性的方式处理他们负责的数据。

2.3主数据要有一个确定的记录系统
主数据应该有一个公认的系统。主数据可能是逻辑实体(如客户、供应商)或逻辑角色(如领导、学生)。并不是所有与该实体相关的属性都需要保存在同一个记录系统中。

2.4主数据只能由一个指定的记录系统创建或更新
如果其他系统需要受控实体的本地副本,它们必须从相关的主记录系统获取数据,而不是从任何其他中介系统获取数据,除非有例外。对核心属性的更新在主记录系统中执行并发布。不能对复制的主数据进行更新。如果获取了数据的一个副本,那么持有该副本的系统有责任确保所持有的副本与主数据保持同步。

2.5复制的数据必须包含由记录系统发出的唯一标识符,并与主记录中的值保持同步
确保存在所有主数据的唯一标识符。标记的唯一标识符提供了返回到真实世界事物的通用密钥。标记跨系统的唯一标识符是确保跨系统数据完整性的重要方法。没有它,数据完整性是很难实现的。并非所有属性都需要保留在复制的数据中。

2.6跟踪和管理主数据质量
如果一个实体标记为主数据,那么就值得确保数据的适合使用。这包括:
•监控主数据的质量问题
•监控第二系统的主属性一致

2.7使用业务定义和业务数据模型声明已标记的实体
业务、流程、数据和技术专家都可以阅读和理解业务数据模型和业务定义。

2.8分析环境不能用作主数据的起始点
分析环境受数据标准化、整合和数据丰富活动的影响,并可能生成派生属性。尽管如此,这些数据丰富被认为是不同类型的数据,并且对治理和管理有自己的需求。

2.9没有必要掌握关键实体的所有属性,也没有必要掌握在同一个系统中
参见客户信息类型。标记了“核心属性”是需要掌握的。
“扩展属性”是需要掌握的。
“派生属性”不需要掌握,而是掌握用于派生属性的定义。
“相关数据”可能是根据自己的权利掌握的实体,因此不是作为关键实体的一部分掌握。
“外部捕获的数据”是从外部系统复制而来的,而外部系统应该控制这些数据。

3标准与指引
3.1治理
已经实现的治理结构来指导主数据框架的开发和操作。治理包括指导委员会和工作组。

指导委员会明确了主数据的所有权和责任,建立了提供和提高主数据质量的责任层次结构。指导委员会还提供总体愿景、战略和指导。

工作组:
•定义和沟通的原则、流程和控制;
•审查制定的可交付成果,以实现与企业数据战略相一致的主数据方法;
•调查和推荐主数据相关的解决方案,以解决业务难点,并确保与企业数据战略保持一致;
•调查并建议主要主数据问题的解决方案;
•协调业务参与或指导主数据项目;
•将关键议题升级到委员会进行批准;
•报告主数据指标。

3.2数据标准
指导委员会确认将要掌握的数据实体。
工作组确保以业务术语定义实体,包括所有字段/属性以及可接受的业务规则和这些属性的值。这些项目随后包括在组织逻辑数据模型中。
工作组确定可用于衡量数据质量的指标。这既包括记录系统内的数据,也包括整个记录系统和所有保留主数据副本的系统。
报告的实施是为了向指定的所有者提供关于主数据实体的数据质量的定期视图。

3.3流程
对于所有已掌握的数据,应在一致的、标准化的模型中开发流程。流程与业务流程保持一致,但增强了对数据重要性的认识,以及对系统或记录中的数据的掌握。这些过程应形成文档,包括过程模型、描述和流程图。
这些过程包括:

•数据集成:记录系统的实现,以及与每个需要与主数据交互的系统的接口
•数据维护:主数据的创建、查询、更新、删除、合并和解除合并,包括对保留该数据副本的所有系统的影响。
•数据质量保证和控制:需要识别、行动和报告数据质量问题的过程。这些流程应该利用作为数据标准一部分的度量标准。这些度量标准应有助于确定数据维护过程未能达到预期数据质量标准的领域,以便对这些过程进行审查和加强。
•归档:需要从主数据集中删除记录的过程。这可能需要将记录存档以供将来参考。归档不仅应该发生在记录系统中,而且应该在与主数据交互的所有系统之间进行协调(例如,如果一个员工记录被归档,那么与该员工的交互记录也应该被删除/归档)。

3.4组织
要定义清晰的操作角色、任务和职责,并与上述确定的流程保持一致。资源分配水平是掌握关键数据的过程的一部分。

3.5技术
实现MDM有4种常见的技术方法:

•注册表式
中央存储库由识别主数据集中的重复记录所需的最小数据组成。对主数据的更改继续在现有的源系统中进行,而不需要从寄存库集成到源系统。跨源系统的更新要么通过手工处理,要么通过其他接口技术处理。

•整合式
整合的方法是在一个中央存储库中合并来自多个来源的数据。对数据进行匹配和分析以保证质量,从而创造了“黄金纪录”。这种方法通常用于报告和分析。

•共存式
类似于整合方法,共存方法使用数据提要创建一个“黄金记录”,然后集中存储。从源系统检测到的任何更改都可以跨所有源系统反馈。

•集中式
数据存储在中央数据存储库中。所有的创建和更新都是通过中央数据存储进行的,更新将反馈给需要访问该数据的系统。
要支持上述任何一种方法,必须在主数据系统中的逻辑数据模型的物理表示与数据源中的物理表示之间提供映射。

3.6记录系统
3.6.1系统功能要求
3.6.1.1记录系统必须提供通用注册功能
通用注册功能是指系统或应用程序套件能够注册、维护和分发特定业务实体所需的共享信息的能力。

“从源头捕捉一次信息,其他系统共享使用”的原则已广为流传和接受。在现实中,由于缺乏基本的系统功能来支持注册过程和开放的信息共享,这种理想很难实现。

3.6.1.2支持管里过程的系统应是切合实际的
一般而言,支持数据注册程序的系统应提供下列数据服务:
•说明一个给定的唯一标识符是否存在于注册集中。例如,回答“88888888编号的员工已经存在吗?”
•给定一个唯一标识符的值,根据请求提供其相关属性。例如,回答问题“编号为88888888的员工姓名和出生日期是什么”?
•规定可以用作自然键的属性的基本集,即最小字段集可以被接受为注册一个新实体所需的最小信息。
•给定一个基本属性集的值,验证一个记录当前是否存在于现实世界的东西。例如,回答以下问题:“您是否已经有一个约翰·史密斯(1977年10月17日)注册为员工?”
•给定任何一组属性的值,返回匹配该属性值的所有记录。例如,回答这个问题“告诉我你注册的所有的约翰·史密斯?”
•给定包含一个新的自然键的信息,创建一个新的记录,并为该记录发布一个新的唯一标识符。例如,“我知道我有一个新员工叫John Smith(1977年10月17日)。请签发一个新的员工编号。”
•为相同的真实世界实体启用补救重复记录(合并)。
•使修复发现的单个记录来表示两个现实世界的实体(分割)。

3.6.1.3记录体系应具有完整和独立的覆盖范围
支持数据注册过程的系统:

•提供指定实体的完整注册覆盖范围(该实体的所有可能实例应能够在系统中注册)。因此,例如,如果系统在注册员工,那么在注册过程中容纳所有类型的员工是很重要的。这可能意味着海外员工,也可能是国内员工。另一个例子可能是慈善机构和政府机构,以及企业和行业合作伙伴。
•提供指定实体的唯一注册覆盖范围。也就是说,企业中不应该有其他系统也注册这种真实世界的东西。

在合并和采集的过程中,这个理想可能很难实现,但是如果没有它,注册机构应该提供存储、持有和发布遗留标识符和全局标识符之间的映射或转换的能力。

3.6.1.4记录系统应具有适当的业务流程
注册系统应当具备以下业务流程:
•能够非常准确地区分现实世界中的新事物和现有事物
•提供事后协调,以纠正两个真实世界的事物被错误地用一个数据记录发布的情况
•提供事后协调,以纠正为同一个现实世界的东西创建两个数据记录的情况

3.6.1.5应不断改进控制过程
这一领域的最佳实践一贯认为,需要不断重新评估注册过程和数据质量分析。支持注册的业务管理流程应该对引起底层主数据更改的业务事件敏感。业务流程应该努力利用每一个机会来捕获更新的信息。

3.6.2唯一标识要求
3.6.2.1唯一标识符的值必须在发布它的记录的整个生命周期内保持不变
为了实现唯一性,唯一标识符本质上是数据世界中真实世界实体的代表,我们努力实现真实世界和数据记录之间的一对一关系。唯一标识符的生命周期应该与真实世界实体的生命周期一致。如果唯一标识符的值发生了变化,就意味着对应的现实世界的东西也变成了某人/某物,这并不理想。

3.6.2.2唯一标识符的值在其集合内必须是唯一的
要实现唯一性,唯一标识符必须对每个不同的记录是唯一的。否则就会引起歧义,标识符就不能准确地识别引用的是哪个记录。

3.6.2.3唯一标识符的值一旦发布给一条记录,就不能再发布给另一条记录
在异构技术环境中重新发布唯一标识符会导致排序问题,以及对所要识别的底层实体的混淆。

3.6.2.4为唯一标识符选择的格式必须提供足够的可用值,以便在可预见的将来支持实体的所有可想到的实例
唯一标识符的格式通常表示可以发出的唯一值的数量限制。例如,如果选择4位数字值来表示客户唯一标识符,那么可以将客户数量限制为10,000。选择不当的格式对业务操作造成了人为的限制,并且削弱了惟一标识符惟一地、明确地标识实例的能力。对任何组织来说,重新颁发唯一标识符都是一个极其痛苦的过程,应该尽可能少地进行。

关于“可预见未来的需求”的决策应该是基于有关组织战略远景的最佳可用信息的架构决策。

3.6.2.5唯一标识符不应有任何附加含义
惟一标识符的作用是在记录的生命周期内惟一地标识一条记录。一个糟糕的例子是对唯一标识符的第一个数字进行编码,比如‘2’表示‘NSW’,‘3’表示‘Victoria’等等。

当一个唯一标识符被赋予额外的含义时,它作为唯一标识符的工作就变得不那么容易了。人们开始对唯一标识符的含义做出假设,这可能会对实体本身的含义造成混淆。如果底层属性改变(例如,如果一个人从NSW移动到Victoria),那么要么唯一标识符的值需要改变,要么唯一标识符不再准确地表示属性。

唯一标识符不应该是一个名称,因为它们在语言上不是中性的,因此传达的意思可能会随着时间的推移而改变。


《2022中国数据治理市场份额》报告追踪了数据治理市场进展。报告将该市场分为数据治理平台市场以及数据治理解决方案市场。数据治理解决方案市场是指依托数据治理工具为用户提供数据治理方案的厂商构成的市场。相比2021年,该市场增长了7.4%。

01一站式数据治理解决方案提供商
作为数据治理领域的领航者,亿信华辰聚焦大数据、人工智能等核心技术,自主研发推出数据全生命周期产品及服务体系。面向政府、部委、央企及行业客户,提供覆盖从数据采集、治理、分析、应用等领先的数据治理工程解决方案,帮助政府及企业盘活数据,挖掘数据价值

基于企业痛点因地制宜,亿信华辰精心打磨面向数字化转型不同阶段的数据领域解决方案,包含大数据治理解决方案、主数据管理方案、数据仓库商业智能方案等多套数据治理方案,涵盖数据中台、数据资产、数据标准、数据质量等多个领域,适配不同行业、场景,对症下药,各个击破,帮助企业建立统一的组织架构体系,建立数据集成、数据服务、数据运营、数据应用能力,实现数据资产化。


02产品+服务 双重认可
亿信华辰自成立以来,便聚焦于客户需求,纵向延伸渠道、横向优化产品,不断迭代产品功能,丰富产品矩阵,让产品既能满足行业的普遍需求,也能满足部分客户的小众需求,形成可复制的应用方案,也积累了更多行业头部客户,让亿信华辰保持领先的增长态势。同时专业团队加持,为客户提供“咨询+产品+实施”的数据治理服务方案,贯穿企业数据治理工作从规划到落地的全过程。

拳头产品睿治数据治理平台是由多个产品组成的一整套解决方案,是一款面向实施人员的、智能的、敏捷的数据全生命周期管理应用平台。平台以元数据为基础,所有模块并非串连,而是每个模块都可以单独或与其他模块组合使用,并支持在本地或云上使用。并以平台化、智能化、可视化的优势支撑诸多企业的数据治理工作及中台建设,获得明显成效。


截至目前,亿信华辰数据治理相关产品及服务已广泛运用于政府、央企、金融、制造、能源等多个行业,服务客户超过12000家。面向未来,亿信华辰将持续聚焦数据领域产品技术研发,依托体系化的数据治理产品、日益完善的方法论和最佳实践,助力政企盘活数据价值,为数据治理工程有序推进提供“路线图”,让社会共享数字经济发展红利,为数字中国建设添砖加瓦。

(部分内容来源网络,如有侵权请联系删除)
立即申请数据分析/数据治理产品免费试用 我要试用
customer

在线咨询