- 产品
- 产品解决方案
- 行业解决方案
- 案例
- 数据资产入表
- 赋能中心
- 伙伴
- 关于
时间:2025-05-07来源:志明浏览数:20次
一 概述
组织经常将数据治理、数据质量和访问控制作为孤立的工作来处理,导致系统碎片化、流程低效以及用户采用率低。专用工具和解决方案通常根据短期业务优先级进行选择,无法提供一致的用户体验,从而导致功能冗余、架构脱节、策略不一致以及投资利用不足。常见的治理挑战包括:碎片化的用户体验:用户必须浏览多个不相连的系统,从而降低了生产力和采用率。数据目录采用率低:用户很少使用与日常工作流程无关的工具。成本效率低下:功能重叠的多种工具增加了许可和运营成本。维护复杂:定制解决方案难以扩展和维护。政策执行不一致:不同的系统造成治理漏洞和风险暴露。为了应对这些挑战,基于实际的合作伙伴关系和可扩展的设计原则,开发了一种集成数据治理方法。这种方法通过与大型企业(包括一家财富 10 强医疗保健公司)的合作以及与领先技术提供商的协作而不断完善。二 一体化数据治理技术架构通过统一的端到端数据治理方法应对这些挑战。通过将数据目录、元数据管理、数据质量、访问控制、血缘和可观察性集成到单一的、紧密结合的架构中,集成数据治理技术架构将企业数据目录置于中心位置,协调治理要素之间的交互。利用现代平台的原生功能并简化技术布局,显著提升了数据资产的价值,并提供无缝的用户体验。
下面是一个高级架构图,展示了这些组件如何交互,其中数据目录是设计的中心。该目录可根据需要与原生平台服务(Databricks、Snowflake、AWS Glue 等)和第三方工具(例如用于访问治理的 TrustLogix、用于数据质量的 Ataccama)集成。数据流和治理流程是端到端协调的:
图 1:统一数据治理架构在这种架构中,用户(数据分析师或科学家)主要与数据目录界面交互,以发现数据资产、了解其质量和上下文,并在需要时请求访问。与此同时,繁重的工作在幕后进行。企业数据目录:目录(例如 Alation、Collibra、Atlan)充当元数据的中心枢纽。它从数据源收集技术元数据,存储业务上下文(词汇表、所有权、分类),并提供用于数据发现的用户界面。在集成治理框架中,数据目录扮演着三重角色。它不仅仅是一个注册表,更是具有三大关键功能的中央治理枢纽:·信息提供者(发现和上下文):首先,目录是所有数据资产的信息门户。它为数据消费者提供丰富的上下文——技术细节(模式、数据类型、配置文件)、业务上下文(描述、术语表、所有者)以及相关信息(链接报告、仪表板、代码笔记本等)。通过搜索和浏览,用户可以发现哪些数据存在。因此,目录可以推动数据素养和数据发现。·访问编排器(安全与合规网关):
第二个功能是作为访问编排器或守门人。集成目录承担着协调数据访问请求和强制合规的角色。它不会取代底层安全系统,而是以用户友好的方式与它们交互。这意味着目录必须了解谁有权访问什么(它可以从平台收集这些信息),并允许授权用户请求或获取访问权限。我们将目录变成了一个内部数据市场,在其中积极执行治理策略。主动元数据概念至关重要——元数据不仅仅是被动的,它还用于自动化操作(例如授予访问权限或触发工作流)。·规则存储库和协作平台:
第三,目录充当业务用户可访问的治理规则和知识的协作平台。这包括业务术语表、数据定义和数据质量规则。业务利益相关者(数据所有者、管理员、分析师)可以直接贡献知识:定义业务术语并将其链接到数据字段,为地址数据集设置规则(例如“邮政编码必须为五位数”),或记录数据使用协议。目录以人类可读的形式存储这些规则和定义。但除了记录之外,这些定义还可以与执行相关联——例如,目录中定义的业务规则(例如“如果客户在 12 个月内没有交易,则被视为不活跃”)可以转换为管道中的数据质量检查。由于非技术用户可以访问目录,它使数据治理委员会和领域专家能够参与规则制定,而无需了解技术实现。
图 2:数据治理神经中枢的表示通过履行这三大功能,集成架构中的数据目录将成为数据治理的神经中枢。它不仅对数据进行编目,还主动管理数据的使用和质量。值得注意的是,人工智能和自动化增强了这三大功能:人工智能可以丰富信息(通过自动标记或建议关系),可以自动化部分访问控制(例如根据策略自动批准某些请求),并可以帮助识别新规则或异常以将其输入规则存储库。实际上,目录从一个被动的数据字典转变为一个主动的数据治理平台。中央元存储和开放表格式:集成的基础要素是使用中央元存储和开放表格式。传统上,不同的分析平台和引擎需要单独的模式定义,从而导致重复(数据仓库中一个模式,数据湖中另一个模式,等等)。我们的方法主张使用开放、可共享的表格式和通用元数据存储,以统一整个生态系统的模式和存储。共享数据定义:通过在中央元存储(如 AWS Glue 数据目录或 Hive Metastore 或用于多云的 Databricks Unity Catalog)中注册所有数据资产,我们确保每个工具都引用相同的表定义。这意味着数据访问程序,无论它们是在 Spark、Presto、Databricks 还是 Snowflake(通过外部表)中运行,都可以看到一致的数据视图。例如,Glue 中定义的优化行列式(ORC)或 Parquet 表可以由 AWS Athena、AWS EMR Spark 和 Redshift Spectrum 平等查询。这消除了在不同系统中手动复制数据定义语言(DDL)的容易出错的做法。它还简化了治理:当模式发生变化或添加新表时,它会在一个地方更新并立即反映在所有地方(包括从元存储中提取的数据目录)。开放表格式(例如 Delta Lake):Delta Lake (一种开源表格式)等技术进一步增强了这种可移植性。Delta Lake 为数据湖存储带来了原子性、一致性、隔离性和持久性 (ACID) 事务和模式演进,并已成为许多 Lakehouse 架构的事实标准。由于 Delta Lake 是开源的,因此多个查询引擎(Databricks、Apache Spark、Flink、Presto 或 Trino 等)都可以读取它。集成架构充分利用了这一优势:以开放格式(例如 Delta、Parquet、优化行列式 (ORC) 甚至较新的 Apache Iceberg)存储数据意味着我们不会被锁定在一种处理引擎中。如果明天某个团队想要使用不同的工具(例如 Google BigQuery 或 Azure Synapse),只要它支持这些开放格式,他们就可以以最小的阻力访问数据。 Databricks 最近甚至宣布推出采用通用格式 (UniForm)的 Delta Lake 3.0 ,以弥合 Delta、Iceberg 和 Hudi 之间的兼容性,凸显了业界提高跨引擎互操作性的举措。数据录入目录:中央元存储充当数据目录的技术元数据输入器。集成后,目录不仅会提取表名和列,还会提取表位置、格式等详细信息,有时还会提取行数或配置文件统计信息(如果可用)。某些目录还会持续与元存储同步,以便任何更改都会在目录中自动更新(主动元数据同步)。这确保了目录作为治理中心始终反映数据的当前状态。总而言之,共享元存储与开放表格式的结合,通过确保元数据的单一真实版本以及跨工具的广泛数据访问,为统一治理奠定了坚实的基础。数据质量框架:一个用于定义、执行和监控数据质量 (DQ) 规则的强大框架。企业无需使用孤立的 DQ 工具,而是可以利用平台原生的数据质量功能(例如 Databricks 的 Lakehouse 监控和预期功能,或 Snowflake 的数据质量功能),并将其输出与目录集成。原生和第三方 DQ 工具非常适合监控静态数据,并且通常附带标准 DQ 检查库。对于更复杂的规则和动态数据场景,通常需要自定义配置。轻量级服务或自定义后处理器也可用于计算其他指标或将结果推送到目录。DQ 框架支持关键质量维度(准确性、完整性、一致性、及时性、有效性、唯一性),当超过阈值时会产生分数或警报。DQ 洞察不再是静态报告——审计日志和结果会实时发布到目录中,从而减少对 Excel 和 PDF 导出的依赖,并通过最大限度地减少数据移动来增强实时治理和合规性。例如,通过自定义 DQ 处理器将 Snowflake 和 Databricks 检查与 Alation 集成,将 DQ 洞察实时发布到目录中,并支持自定义的业务特定逻辑。这种集成设计方法减少了许可证开销,增强了可审计性并确保了灵活性和可扩展性,同时将数据质量嵌入到本机处理环境中。
图 3:集成设计方法访问控制和安全:治理架构包含一个集成的访问管理层。这可以是云原生访问控制(例如用于数据权限的 Azure Purview 和 Databricks Unity Catalog,或 Snowflake 的基于角色的访问控制 (RBAC)),也可以是像 TrustLogix 这样覆盖细粒度访问策略的跨平台安全工具。· 访问策略集中定义,并通过数据目录界面呈现——打造数据市场体验,用户可以通过受管控的工作流程发现数据并请求访问权限。批准后,将使用底层平台 API(例如 Snowflake GRANT、Unity Catalog 角色分配)自动应用权限,并且目录会记录所有访问权限,以便审计。· 原生访问控制平台提供强大的执行机制。例如,Unity Catalog 使用视图支持架构、表、列级和行级权限。Snowflake RBAC 允许基于角色的细粒度权限。AWS Lake Formation 和 Azure Purview 在云数据湖中原生提供基于策略的控制。· 对于多平台环境,TrustLogix 等工具充当统一的策略层,抽象并执行跨系统屏蔽或聚合等规则 - 例如“分析师只能访问聚合数据”。· 此集成允许目录(例如 Alation)充当访问管理网关——用户可以直接在界面中查看权限状态、发起访问请求并接收更新。这减少了后门共享,并确保了跨平台一致且合规的流程。· 可扩展性和自动化:审批可以在目录中处理,也可以与工作流引擎(例如 ServiceNow、Jira)集成。轻量级自动化(例如通过云函数)支持快速实施,无需进行大量定制。这种方法简化了用户访问,缩短了数据权限的周转时间,并确保所有数据访问都得到批准、可追溯且合规——符合联合治理原则。血缘和可观察性:为了实现端到端治理,了解数据流动和变化方式至关重要。集成方法引入了数据沿袭(源、转换和输出之间的关系)和可观察性(数据管道、使用情况和异常的监控)。原生沿袭功能(例如 Databricks 的 Unity Catalog 中的功能,或 Snowflake 的查询历史记录)可被捕获,同时可以使用OpenLineage等开放标准或Manta、Ataccama、Marquez或Microsoft Purview等工具来丰富跨平台的沿袭。· 在多个级别捕获血统:a)技术血统(例如,列级转换),b)管道血统(例如,移动和转换数据的 Spark 或 ETL 作业),c)业务血统(例如,从 CRM 到仪表板的系统级可追溯性)。· 这些信息通过 API 或连接器推送到数据目录(例如 Alation),或由数据目录提取。然后,用户可以直接在目录界面中以图表形式查看上游或下游依赖关系。· 在可观察性方面,该架构集成了管道健康和监控洞察:数据新鲜度和 SLA 跟踪(例如,警报延迟或失败的数据加载)、容量和模式异常检测(例如,行数激增/下降)、使用情况分析(例如,查询最多的表、上次访问时间)。· 这些信号可以来自Databricks 监控、蒙特卡洛或内置平台元数据(例如 Snowflake 的 LAST_DDL、LAST_QUERY 或使用情况统计)等工具。这些元数据随后会与谱系和质量得分一起显示在目录中。·可观察性与质量紧密相连:异常情况(例如,流量突然下降)可能触发 DQ 规则失效。在我们的设计中,运行状态(例如,“上次加载失败”、“自上次更新以来五天”)会与 DQ 指标一起显示,从而形成闭环并实现主动治理。· 该目录充当集中式界面,聚合了数据沿袭、可观察性和质量,使用户能够全面发现、评估和信任数据资产。这种方法使治理变得主动且具有预防性,而非被动应对,并支持联合控制,同时提供统一的体验。业务规则存储库:除了技术层面之外,治理还必须对业务知识进行编码,例如业务规则或策略的存储库。该存储库可能位于数据目录中,因为许多目录都包含词汇表模块和策略管理,或者链接到外部文档。在集成设计中,这些规则可以被数据质量 (DQ) 框架和访问控制引用,从而确保策略的一致性。在大多数情况下,业务规则和策略将在所有数据层级上可用:数据源、模式、表和列。集成和编排平台:最后,将所有内容结合在一起的是一个编排层——它可以只是一组 API 和脚本或一个轻量级服务总线——以确保组件之间的数据流。例如,一旦在平台中创建新表,集成就会确保目录得到更新;或者当数据质量作业计算分数时,它会调用 API 来更新目录的质量仪表板。这种编排可以通过云原生工作流(例如使用由事件触发的 AWS Lambda 或 Azure Functions)或目录供应商提供的集成功能(某些目录提供用于自定义集成的 SDK 或开放 API)来实现。目标是自动化:元数据同步和事件驱动的更新,以便治理生态系统无需人工干预即可保持最新。三 治理中的人工智能和自动化任何现代数据战略都必须考虑人工智能和自动化的作用,否则就不完整,尤其考虑到组织所处理的数据规模(数量、种类和速度)。在集成数据治理的背景下,人工智能和自动化如同力量倍增器,能够使系统更智能、更主动、更易于维护。自动分类和标记:人工智能在数据目录中的早期优势之一是自动数据分类。利用机器学习 (ML) 和模式识别,数据目录(或相关工具)可以扫描数据值并推断出“电子邮件地址”或“国家代码”等标签,或识别个人身份信息 (PII),例如社保号码。这大大减少了数据管理员标记和分类数据的手动工作量。规则生成和推荐: AI 可以更进一步,推荐数据质量规则或异常值检测规则。例如,如果某个数值字段大部分落在某个范围内,系统可以建议一条有效性规则(“字段 X 的值通常介于 0 到 1000 之间”)。或者,如果两个表似乎总是基于某些键进行连接,系统可能会推断出一条引用完整性规则。虽然人工会验证这些规则,但它会快速启动定义质量检查和业务规则的流程。随着时间的推移,系统会从反馈中学习(哪些建议被采纳),从而不断改进。异常检测:与质量和可观察性相关,人工智能驱动的异常检测是数据可靠性的关键。异常检测算法并非为质量指标设定静态阈值,而是可以建立基线并检测指标何时出现异常偏差。例如,如果一个表通常每天有 10 万到 12 万条记录,而突然变成了 15 万或 1 万条,那么即使它没有违反硬编码规则,统计模型也会将其标记为异常。在综合治理中,此类异常可以触发警报,向数据工程师或管理员发出警报,促使下游用户受到影响之前进行调查。这些警报可以通过目录、电子邮件或 Slack 等方式显示。元数据同步与自动化:鉴于系统数量众多,保持元数据同步是一项经典挑战。自动化是答案。我们设置了自动化作业(使用 API、Webhook 或调度程序),以便每当发生任何变化时,连接的组件都会更新。例如:创建 Webhook,以便在 Databricks 中创建新表、更新数据质量评分、用户入职或角色变更等情况下自动同步。总体而言,集成方法确保每个组件(目录、元存储、DQ、访问、血统)不是孤岛,而是统一设计的一部分。四 业务影响实施综合治理框架可带来显著的效益:提高采用率和生产力:简化的用户体验增加了与治理工具的参与度。成本优化:减少对专门的第三方工具的依赖并简化维护。增强数据资产的价值:更高的可见性、可信度和可访问性可提高数据使用率和投资回报率 (ROI)。加强合规性和风险管理:集中治理控制可提高合规有效性并降低运营风险。加速洞察:更快的入职和简化的数据访问减少了洞察时间,支持快速的业务决策。五 小结集成治理方法将碎片化的治理转变为统一、精简的模型。这种设计不仅简化了治理格局,而且从根本上增强了业务敏捷性和数据驱动的决策能力,将数据治理转化为战略优势。