睿治

智能数据治理平台

睿治作为国内功能最全的数据治理产品之一,入选IDC企业数据治理实施部署指南。同时,在IDC发布的《中国数据治理市场份额》报告中,连续四年蝉联数据治理解决方案市场份额第一。

元数据、数据字典、数据资源目录有什么区别?

时间:2025-12-16来源:大鱼的数据人生浏览数:1

数据治理里,这三个词出现频率极高:

元数据(Metadata) 数据字典(Data Dictionary) 数据资源目录(Data Catalog / Resource Catalog)

最常见的“翻车现场”是:大家都觉得自己做了,但又说不清做的是哪一个。

这篇文章只解决一件事:


把三者的定位、内容、边界、产出物、使用场景一次讲透。

把企业数据当成一个“图书馆体系”:

元数据:每本书的基本信息 + 书与书之间的关系

(书名、作者、ISBN、页数、版本;以及“引用了哪本书”“属于哪一类书架”)

数据字典:读者能看懂的“词条解释 + 规则说明”

(这个词是什么意思?取值有哪些?什么情况下算作A而不是B?)

数据资源目录:面向全员的“检索与领取入口”

(我能搜到什么数据?这份数据能不能用?怎么申请?找谁负责?)

一句话记住:


元数据管“事实与关系”,字典管“语义与口径”,目录管“发现与获取”。

定义(更落地的版本)


元数据是对数据对象及其关系的结构化描述。

对象包括:表、字段、数据集、指标、接口、任务……

关系包括:血缘、依赖、影响、归属、版本……

元数据从哪里来?

很多人误以为“元数据都是系统自己长出来的”,更准确是两类:

技术元数据(可自动采集)

表结构、字段类型、分区、作业依赖、血缘、存储位置、行数、更新时间等


管理/业务元数据(需要人为定义,但要结构化落库)

责任人、分级分类、共享级别、主题域归属、数据标签、保留期限、合规要求等

元数据典型产出物 数据对象清单(有哪些库/表/数据集/任务) 血缘与影响分析(从哪来、到哪去、改了影响谁) 数据生命周期信息(更新频率、留存、冷热分层) 安全与合规属性(分级分类、敏感标记) 定义(别被带偏)


数据字典是对数据元素(字段/枚举)与指标口径(KPI)的系统化定义与约束说明。

它不是“命名规范手册”(那更像数据标准),它更像:

字段/指标的官方释义 取值/口径的边界条件 变更的版本与追溯 数据字典通常包含两块

A. 字段级字典(Data Element Dictionary)

字段中文名/英文名 业务含义 取值范围/枚举(如:M/F/U) 口径说明与例外情况 数据质量规则(可选) 负责人/维护人、版本、生效时间


B. 指标口径字典(Metric Dictionary)

指标名称、定义 计算逻辑(可落地到SQL/配置更好) 时间窗口、去重规则、过滤条件 业务范围(包含/不包含哪些渠道、订单类型) 版本与变更原因 数据字典典型产出物 数据元素清单(字段级词条) 指标口径库(指标级词条) 术语表(同义词、别名映射:GMV/成交额/含税不含税等) 版本管理与变更记录(谁改的、何时、为何) 定义(以“使用”为中心)


数据资源目录是对组织数据资源进行登记、分类、编目后形成的检索与获取清单。

它解决的问题很实际:

我们有哪些数据可以用? 这份数据适合什么场景? 能不能共享?共享到什么范围? 怎么申请?多久能给?找谁? 数据资源目录典型内容(建议最小必备) 资源名称、资源编码、主题分类 数据提供方/责任部门、Owner 资源简介与适用场景 开放属性(开放/有条件/不开放) 更新频率、覆盖范围(时间/区域/业务线) 获取方式(API/表/文件/报表)、申请入口、SLA 关联链接(指向元数据详情、字典词条、样例数据、使用手册) 数据资源目录典型产出物 目录条目(可被搜索、可被理解) 申请与授权流程(工单/审批/自动授权) 使用记录与审计(谁用过、用来干嘛)

 

遇到任何“我们是不是做了XX”的争论,你让大家各自回答这三句,基本就不吵了:

我想知道:这张表从哪来、到哪去、改了影响谁?

→ 这是 元数据(血缘/影响分析)


我想知道:这个字段/指标到底是什么意思,怎么算,有没有版本?

→ 这是 数据字典(语义/口径)


我想知道:公司有什么数据能用,我怎么申请,找谁负责?

→ 这是 数据资源目录(发现/获取)

很多人把字典/标准/模型混在一起,建议你在团队里明确这三条边界:


数据标准(Data Standards):命名规范、编码规则、建模规范、质量标准(“应该怎么做”) 数据模型(Data Model):实体关系、维度事实、主题域结构(“应该怎么设计”) 数据字典(Data Dictionary):字段/指标释义、枚举、口径、版本(“这到底是什么意思”)

如果你问“先做哪个”,给一个更稳、更容易出成果的顺序:

Step 1:先把“技术元数据”采起来(快速可见) 表/字段/任务/血缘/影响分析能跑起来

让大家先“看得见家底”,项目不至于空转。


Step 2:并行做“关键域的数据字典”(别一上来全量) 先挑最核心、争议最多、影响最大的领域:

客户、产品、组织、订单、财务口径、经营指标……

先把“指标口径”抓住(往往比字段更能止血) Step 3:把可共享的资源“产品化”进目录(让人用起来) 目录条目必须包含:负责人、开放属性、获取方式、申请入口、SLA

否则就是“摆设目录”。

元数据让数据“可追溯”,

数据字典让数据“可理解”,

数据资源目录让数据“可获取”。

三者协同,数据才从“系统里的存量”变成“组织里可用的资产”。

(部分内容来源网络,如有侵权请联系删除)
立即申请数据分析/数据治理产品免费试用 我要试用
customer

在线咨询

在线咨询

点击进入在线咨询