- 产品
- 产品解决方案
- 行业解决方案
- 案例
- 数据资产入表
- 赋能中心
- 伙伴
- 关于
全程“零”编码,高效实现主数据模型、主数据维护、主数据分发、主数据质量的全过程管理,为企业主数据管理落地提供有效支撑,实现各业务系统间的主数据共享,保障企业主数据的唯一性、准确性、一致性。
覆盖数据建模、采集、处理、集成、共享、交换、安全脱敏于一体,一站式解决数据开发所有的问题。
统一指标定义,实现“一变多变、一数多现”的数据管理效果,为企业提供强有力的数字化保障和驱动效应。
企业级多智能体平台,低门槛搭建智能体,灵活编排流程,融合 LLM 实现“问数”、“问知识”
面向企业级数据资产交易运营场景,助力企业实现数据资产的价值挖掘、升值和资产变现。
时间:2024-06-15来源:藐视天下浏览数:121次
一、数据质量问题产生的原因
二、如何提高数据质量?
数据质量问题无法完全根治或杜绝,所以要想提升数据质量,最重要的就是“早发现,早恢复”。要做到这一点就需要依赖完善的数据质量监控能力,在数据生产加工的全链路过程中,添加质量稽核规则。例如对产出表按照业务规则,设计一些校验逻辑,确保数据的完整性、一致性和准确性。
在数据产出任务运行结束后,启动稽核校验任务对数据结果进行扫描计算,判断数据结果是否符合规则预期。如果不符合,就根据提前设定的强弱规则,触发不同的处理流程。如果是强规则,就立即终止任务加工链路,后续的任务不会执行,并且立即发出电话报警, 甚至关键任务还要开启循环电话报警,直到故障被认领;如果是弱规则,任务会继续执行。但是存在风险,这些风险会通过邮件或者短信的方式,通知到数据开发,由人来进一步判断风险严重程度。
早发现,是要能够先于数据使用方发现数据的问题,尽可能在出现问题的源头发现问题,这样就为“早恢复”争取到了大量的时间。早恢复,就是要缩短故障恢复的时间,降低故障对数据产出的影响。图5 稽核校验执行流程图 那具体要加哪些稽核规则呢?
三、数据治理监控的常用规则
完整性规则。主要目的是确保数据记录是完整的,不丢失。常见的稽核规则有表数据量的绝对值监控和波动率的监控(比如表波动超20%,就认为是异常)。还有主键唯一性的监控,它是判断数据是否有重复记录的监控规则,比较基础。除了表级别的监控, 还有字段级别的监控(比如字段为 0、为 NULL 的记录)。
一致性规则。主要解决相关数据在不同模型中一致性的问题。商品购买率是通过商品购 买用户数除以商品访问 uv 计算而来的,如果在不同的模型中,商品购买用户数是 1W、 商品访问 uv10W,商品购买率 20%,那这三个指标就存在不一致。
准确性规则。主要解决数据记录正确性的问题。常见的稽核规则有,一个商品只能归属在一个类目,数据格式是不是正确的 IP 格式,订单的下单日期是还没有发生的日期等等。
四、数据治理的衡量指标
管理学大师彼得德鲁克说过如果你无法衡量,你就无法提升。做数据治理,也需要有衡量标准,促进不断改善。那么如何评价数据质量是否有改进呢?除了故障次数,你还可以有这样几个指标。
4 点半前数据中台核心任务产出完成率。这个指标是一个综合性指标,如果任务异常, 任务延迟,强稽核规则失败,都会导致任务无法在规定时间前产出。
基于稽核规则,计算表级别的质量分数。根据表上稽核规则的通过情况,为每个表建立质量分数,对于分数低的表,表负责人要承担改进责任。
需要立即介入的报警次数,通常以开启循环报警的电话报警次数为准。对于核心任务, 任务异常会触发循环电话报警,接到报警的数据开发需要立即介入。
数据产品 SLA。每个数据产品上所有指标有没有在 9 点产出,如果没有,开始计算不可 用时间,整体可以按照不同数据产品的重要性进行折算,99.8% 是数据产品一个相对比 较好的 SLA。
上一篇:为什么数据治理项目会失败?...
全面覆盖数据治理9大领域,采用微服务架构,融合度高,延展性强
实现数据从创建到消亡全生命周期的可视化,也实现全角色的可视化
丰富的智能元素和功能,大大缩短数据管理周期、减少成本浪费