睿治

智能数据治理平台

睿治作为国内功能最全的数据治理产品之一,入选IDC企业数据治理实施部署指南。同时,在IDC发布的《中国数据治理市场份额,2022》报告中,蝉联数据治理解决方案市场份额第一。

当人工智能遇上数据治理,擦出别样的火花

时间:2021-07-29来源:亿信华辰浏览数:630

伴随着大数据、云计算以及算法的发展,人工智能的热潮从几年前一直延续至今,并且广泛应用于多个行业和领域,成为当前正在进行的科技革命的一个领军技术。而人工智能在如火如荼的数据治理领域又怎么能缺席呢。数据治理和人工智能,看似不相关的两个词,他们两者放一起,会发生什么故事呢。

数据治理为人工智能奠定基础
大数据是不断持续的数据采集、清洗、转换、分类等的数据积累,而数据治理则为大数据的呈现提供了更为规范的管理模式。由于目前大部分人工智能的形式需要通过大量的数据运算实现,因此离不开大数据和数据治理的支持。人工智能需要依赖大数据平台和技术来帮助完成深度学习进化。

数据治理为人工智能提供优质数据
大部分的人工智能分为训练(Training)和预测(Predict)两个环节。机器训练算法的效果依赖于所输入的数据质量的优劣,如果输入的数据存在偏差,那么输出的算法也将产生偏差,这可能直接导致所得结果的不可用。数据治理在提升数据质量方面具有重要作用。通过梳理数据质量需求、定义数据质量检查规则、制定数据质量改善方案、设计并实施数据质量管理工具、监控数据质量管理操作程序和绩效等数据质量管理环节,企业可以获得干净的、结构清晰的数据,为深度学习等人工智能技术提供可信的数据输入。

数据治理为人工智能保障数据隐私
当前人工智能发展中面临的很大制约就是数据权属和隐私保护问题。个人隐私数据应该受到保护,这些数据的滥用可能对个人造成巨大的财产损失甚至人身伤害。所谓隐私保护,其实就是对隐私数据的保护,归根结底是对数据用户的隐私保护。数据治理工具从技术层面设计了保护隐私数据的诸多环节,提供数据模糊化、数据脱敏、数据加密,可为企业个人数据保护奠定基础,从而实现人工智能应用的数据合规性。

人工智能提升数据治理智能化水平
元数据管理
在传统的元数据管理中,对于非结构化数据的元数据采集通常是通过创建非结构化数据的搜索索引的方式。而语音识别、图像识别、文本分析等人工智能技术能帮助实现元数据的最初业务词库的构建,成为提取各类有价值的非结构化元数据的资源池。

数据标准管理
在数据标准的实施初期,需要对存量系统的数据库字段进行摸底,识别出共有的、重复使用的业务字段,作为建立数据标准的依据。如果完全靠人工梳理,需要协调各业务部门大量人员参与,工作量巨大且容易出错。借助机器学习、自然语言处理技术,可以根据字段业务名快速的整理出高频词根,将可能需要几个月的工作在几天内完成。

数据标准管理的另一个重要环节是标准与元数据的映射。在业务系统众多,数据标准与业务系统的元数据进行映射往往是实施工程师的恶梦,一不小心就容易出错。有了人工智能技术,可以对业务字段名进行自然语言处理,精确分词,根据词根相似性将数据标准与元数据自动映射起来。

数据质量管理
数据质量是保证数据高效应用的基础。衡量数据质量的指标体系包括完整性、规范性、一致性、准确性、唯一性、时效性。在实施数据质量提升方案之前,需要依据不同的业务规则和业务期望选择合适的数据质量指标体系,并进行数据的清洗。

一般数据质量改善的理想模式是从数据源头剔除脏数据,但是在现实中并不可行。因此,根据业务期望,应针对性地提升各个业务阶段的数据质量。机器学习(如分类学习、聚类、回归等)可提取并识别存在的质量问题,从而制定有效的数据质量评估指标,最大化实现该指标下的数据质量的提升。同时,监督学习、深度学习也将实现对数据清洗和数据质量的效果评估,进而改善转换规则和数据质量评估维度,并随着数据量和业务期望的逐渐变化,使数据质量提升方案动态更新。

数据安全
数据安全是指让信息或信息系统免受未经授权的访问、使用、破坏、修改、销毁的过程或状态。人工智能技术可以进行敏感数据的分类分级。应用机器学习、自然语言处理和文本聚类分类技术,能对数据进行基于内容的实时精准分类分级,而数据的分类分级是数据安全治理的核心环节。例如,利用数据分类引擎在邮件内容过滤、保密文件管理、情报分析、反欺诈、数据防泄露等领域明显提升了安全性。

主数据管理
主数据指企业核心业务实体的数据,也叫黄金数据,是在整个价值链上被重复、共享应用于多个业务流程的、各个业务部门与各个系统之间共享的基础数据,是各业务应用和各系统之间进行信息交互的基础。但是在主数据管理的过程中,企业可能面临如何在数量庞大的数据项中识别主数据、如何建立统一的主数据标准等问题。

人工智能自动识别主数据
确定主数据依赖于企业对于业务需求的理解和相应“黄金数据”的定义。通常来说,每个主数据主题域都有自己专用的记录系统,并且分散在各个业务系统中。人工智能相关技术可以帮助我们在所有数据中筛选出频繁出现或流动的数据,同时快速确定主数据的可靠与可信数据来源,构建完整的主数据视图。

人工智能帮助重复数据自动匹配和合并
主数据管理面临的一个挑战是在企业众多的系统中对于同一数据项或者重复的数据项进行匹配和合并,解决该挑战的一个方法是构建数据匹配规则,包括不同置信水平的匹配接受度。有些匹配需要极高的信任度,可以基于跨多个字段的准确数据匹配实现;有些匹配仅仅由于数据值的冲突,可以采用较低的信任度。机器学习、自然语言处理可帮助建立重复数据识别的匹配规则,在识别字段重复的主数据之后不进行自动合并,并确定与主数据相关的记录,建立交叉引用关系。

数据治理平台的智能化
未来,通过人工智能技术降低数据治理的门槛将成为数据治理发展的重要方向。充分考虑到数据治理高复杂性的特点,亿信华辰睿治数据治理平台不断融合AI新技术,力求通过智能化管理来简化数据治理实施过程,大大地解放技术人员,帮助企业实现更高效的数据治理,远离“数据黑洞”。

1、智能化元数据服务。睿治平台支持全自动元数据采集和关联,实现元模型智能化应用,提供图形化元数据分析视图。
2、智能化探查数据质量。睿治平台内置数理统计算法、绑定机器学习算法,实现自动探查数据质量,同时支持智能修复。
3、智能化构建数据标准。睿治平台支持智能化映射及落标,形成的数据标准和业务数据双向评估。
4、智能化识别主数据。睿治平台自动识别主数据,帮助重复数据自动匹配和合并,构建完整的主数据视图。
随着数据治理和人工智能两个领域的各自快速发展,未来二者的融合将会有更多场景和商业模式。
(部分内容来源网络,如有侵权请联系删除)
立即申请数据分析/数据治理产品免费试用 我要试用
customer

在线咨询