睿治

智能数据治理平台

睿治作为国内功能最全的数据治理产品之一,入选IDC企业数据治理实施部署指南。同时,在IDC发布的《中国数据治理市场份额,2022》报告中,蝉联数据治理解决方案市场份额第一。

数据集成的原理

时间:2018-12-29来源:数据治理浏览数:2342


在Experian Data Quality上多次使用这个类比,但这仅仅是因为它在引用数据标准化时非常有意义。

数据标准化只是构建良好数据管理策略的一个步骤,但这是使数据可操作的基本步骤。

为什么在进行数据质量或数据管理项目时投资数据标准化符合您的最佳利益?就像一个坚实的基础对于强大的房屋至关重要一样,数据标准化对于构建强大的数据管理计划是必要的。这就是那些致力于数据驱动的组织能够快速有效地做出决策的方式。

究竟什么是数据标准化?

数据标准化是将数据转换或操作为一致格式的过程。这些数据很可能存在于多个不同的系统中,所有这些系统的数据存储规则和格式可能略有不同。这些微小的差异可能导致对组织数据的误解和误解,导致依赖该数据的人不信任它并进行多项检查以确保从该数据中得出的结论实际上是正确的。




对于普通的乔来说,信息技术(IT)是一个神秘的世界,充满了难以理解的编程语言和昂贵的硬件。窃听IT技术人员几乎就像听到用外语说话。但是,尽管这种看似难以理解的语言障碍,对于企业和组织中的决策者来说理解IT世界至关重要。最重要的IT概念之一是数据集成。


从表面上看,数据集成听起来像一个简单的想法。由于许多组织将信息存储在多个数据库中,因此需要一种方法从不同的源检索数据并以统一的方式组装。例如,让我们想象一家电子公司正在准备推出新的移动设备。在市场营销部门可能想要从一个销售部门的数据库中的客户信息,并将其从产品部门的比较信息,以创建具有针对性的销售列表。一个好的数据集成系统可以让营销部门以统一的方式查看来自两个来源的信息,而忽略任何不适用于搜索的信息。


实际上,数据集成是一门复杂的学科。没有通用的数据集成方法,IT专家使用的许多技术仍在不断发展。某些数据集成方法可能比组织中的其他方法更好,具体取决于组织的需求。我们将密切关注IT专家用于集成多个数据源并进入数据库管理世界的一些一般策略。


数据集成基础


数据集成主要侧重于数据库。数据库是有组织的数据集合。它类似于文件系统,它是文件的组织结构,因此很容易找到,访问和操作。


有不同的方法来分类数据库。有些人喜欢根据数据库存储的数据类型对它们进行分类。例如,如果存储在那里的所有信息都包含在视频或声音文件中,则可以将数据库分类为媒体数据库。


另一种分类方法着眼于数据库如何组织数据。数据库的组织安排称为模式。一种常见的组织技术是使用表来显示不同数据点之间的关系。表格就像电子表格。列定义数据类别,而行是记录。使用此方法的数据库是关系数据库。


面向对象编程(OOP)数据库采用不同的方法来组织数据。OOP语言偏离了传统的编程方法,它遵循将数据插入一组指令然后产生输出的模式。OOP语言的重点是将数据定义为对象,然后确定不同对象如何相互关联和相互作用。


要创建OOP数据库,首先要定义计划存储在数据库中的所有对象。然后,您将定义每个对象与数据库中每个其他对象的关联方式。识别对象后,将其放入一个类或一组对象中。要定义一个类,您必须确定该类中每个对象必须具有哪些数据,以及哪些逻辑序列(称为方法)将影响这些对象。系统中的对象可以使用称为消息的接口与您或其他对象进行通信。


通过一个例子更容易理解。假设您正在构建一个包含有关美国体育信息的数据库。你决定从定义棒球队开始。一旦创建了棒球队的定义,就可以将其概括为数据库中的一个类。Atlanta Braves将是该类的特定实例,也称为对象。棒球队的类别属于美国运动队的超级类别,其中还包括其他类别,如足球和足球队。


要访问数据库中的信息(无论它如何组织数据),您可以使用查询。查询只是一个信息请求。人员和应用程序可以向数据库提交查询。数据库通过发送满足原始请求参数的数据来响应查询。查询依赖于特殊的计算机语言,例如结构化查询语言(SQL)。如果您曾经使用过互联网搜索引擎,那么您已经提交了一个查询 - 您的搜索字词。


数据集成方法


根据上面所说的,您可能认为数据库相当复杂。这是一个公平的假设,它有助于解释为什么数据集成仍然是一个发展中的学科,即使它已有30多年的历史。数据集成的目标是从不同来源收集数据,将其组合并以一种看起来是统一整体的方式呈现。


假设你要离开旅行,你想在决定走出城外的路线之前看看有什么样的交通。以下是数据集成的不同方法如何处理您的查询。


在手动集成方案会令所有的工作给你。首先,您必须知道在哪里查找数据。您需要知道交通报告和城镇地图的实际位置。您需要直接从各自的数据库中检索交通报告和地图数据,然后将这两组数据相互比较,以找出出城的最佳路线。


如果您使用通用的用户界面方法,则必须少做一些工作。您可以使用诸如万维网之类的界面进行查询。查询结果将显示为界面上的视图。您仍然需要将流量报告与地图进行比较以确定最佳路线,但至少接口会负责查找和检索数据。


一些集成方法依赖于应用程序来为您完成所有工作。这些应用程序是专门的计算机程序,可以为您定位,检索和集成信息。在集成过程中,应用程序必须操纵数据,以便来自一个源的信息与来自其他源的信息兼容。在我们的示例中,这意味着您要向应用程序提交查询,它会显示一个视图,将您所在城镇的地图与来自交通报告的数据相结合。这种方法的问题在于,随着数据源和格式数量的增加,应用程序变得复杂且难以编程。


然后是常见的数据存储方法,也称为数据仓库。使用此方法,可以提取,转换和加载来自要集成的各种数据库的所有数据。这意味着数据仓库首先从各种数据源中提取所有数据。然后,数据仓库将所有数据转换为通用格式,以便一组数据与另一组数据兼容。然后它将这些新数据加载到自己的数据库中。提交查询时,数据仓库将查找数据,检索数据并在集成视图中将其呈现给您。使用我们的示例,数据仓库将找到它在城镇的交通报告和地图上的最新信息。然后它会将两者整合在一起并将视图发送给您。该系统有几个优点和缺点,我们将在下一节中介绍。


大多数数据集成系统设计人员都认为最终目标是尽可能为最终用户创建工作,因此他们倾向于关注应用程序和数据仓库技术。


数据仓库


如前所述,数据仓库是使用通用格式存储来自其他数据库的信息的数据库。这与描述数据仓库时的具体情况大致相同。没有统一的定义来规定数据仓库是什么或者设计者应该如何构建它们。因此,有几种不同的方法可以创建数据仓库,而一个数据仓库的外观和行为可能与另一个不同。


通常,对数据仓库的查询只需要很少的时间来解决。那是因为数据仓库已经完成了提取,转换和组合数据的主要工作。数据仓库的用户端称为前端,因此从前端角度来看,数据仓库是获取集成数据的有效方式。


从后端的角度来看,这是一个不同的故事。数据库管理员必须对数据仓库系统进行大量思考,以使其有效和高效。将从不同来源收集的数据转换为通用格式可能特别困难。系统需要一致的方法来描述和编码数据。


仓库必须具有足够大的数据库,以存储从多个源收集的数据。一些数据仓库包括一个称为数据集市的附加步骤。数据仓库接管聚合数据的职责,而数据集市通过检索和组合来自仓库的适当数据来响应用户查询。


数据仓库的一个问题是它们中的信息并不总是最新的。这是因为数据仓库的工作方式 - 他们定期从其他数据库中提取信息。如果这些数据库中的数据在提取之间发生变化,则对数据仓库的查询将不会产生最新且准确的视图。如果系统中的数据很少改变,这不是什么大问题。但是,对于其他应用程序,这是有问题的。


回到之前使用流量报告和地图的示例,您可以看到这将是一个问题。虽然该镇的地图可能不需要频繁更新,但交通状况可能会在相对较短的时间内发生巨大变化。数据仓库可能不会非常频繁地提取数据,这意味着时间敏感的信息可能不可靠。对于那些类型的应用程序,最好采用不同的数据集成方法。


网络数据库


对于依赖于频繁更改的信息的数据集成系统,数据仓库方法并不理想。IT专家尝试解决此问题的一种方法是设计直接从各个数据源提取数据的系统。由于没有专门用于分析,分类和集成数据以准备用户查询的集中式数据库,因此这些责任落在系统的其他部分。


IT专家根据模式定义数据集成系统。从处理的查询生成的统一视图是全局模式。各种数据源的结构以及它们彼此相关的方式是源模式。全局和源模式相互关联的方式称为映射。将源模式视为系统中所有数据的蓝图,而全局模式是响应查询而呈现的视图的蓝图。


在数据集成系统中解析查询有两种主要方法:全局视图和本地视图。每种方法都侧重于整个系统的特定部分,并且有其优点和缺点。


在全球视图方法中,重点是全局模式。只要数据源保持一致,全球视图方法就能很好地运作。更改全局模式的设置很容易。这意味着以不同方式分析相同的整体数据并不困难。但是,向系统添加或删除数据源是有问题的,因为它会影响整个系统的数据。


本地视图技术采用相反的方法。它侧重于数据源。只要全局模式保持不变,就可以轻松地向系统添加或删除数据源。该模式在新数据源中查找相同类型的数据和关系。在这种方法中,更改全局模式的参数很困难。如果要以新方式分析数据源,则必须重新定义整个系统。


这就是关于数据集成的故事。下次您查看天气图或调出过滤后的数据选择时,您将了解后台进行的一系列复杂过程,这些都是可能的。





(部分内容来源网络,如有侵权请联系删除)
立即申请数据分析/数据治理产品免费试用 我要试用
customer

在线咨询