接触过大数据领域的人,想必都听说过数据仓库、
数据治理、数据中心、主数据等概念,但是,对这些概念模糊不清,经常混淆。所以小亿在此给大家介绍一下这几个大数据概念层面的关系和区别。
一、数据仓库
数据仓库是面向主题的、集成的、非易失的和时变的数据集合,用以支持管理决策。它出于分析性报告和决策支持目的而创建。数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持。
面向主题:数据仓库是面向主题的。主题是一个抽象的概念,是较高层次上企业信息系统中的数据综合、归类并进行分析利用的抽象。
集成性: 通过对分散、独立、异构的数据库数据进行抽取、清理、转换和汇总便得到了数据仓库的数据,这样保证了数据仓库内的数据关于整个企业的一致性。
非易失性:数据仓库的数据反映的是一段相当长的时间内历史数据的内容,是不同时点的数据库快照的集合,以及基于这些快照进行统计、综合和重组的导出数据。
时变性:数据仓库包含各种粒度的历史数据。数据仓库的数据需要更新,以适应决策的需要。
二、数据中心
针对具体的企业或者单位来讲,数据中心就是业务系统数据存储技术和数据仓库的组合。但如果是互联网公司,因为庞大的互联网的信息,不可能包罗所有信息到数据库,也处理不了那么多信息,所以他们的数据中心的其中作用就是加强互联网数据的处理速度和效果。
三、数据仓库与数据中心的区别
数据中心的概念远远大于数据仓库范畴,包括了机房、网络、硬件设备、分布式软件技术、数据资源标准体系如何定义等方面。数据仓库目前更多是管理针对当前有业务和分析需要的处理数据。
四、数据治理
数据治理针对数据进行一整套的数据规划、整合、控制等进行起来的一套体系。是站在数据中心之上定义数据标准、质量标准、安全标准、服务标准、开放标准等,依托元数据按照不同用途进行技术元数据和业务元数据的管理。
五、数据仓库与数据治理的区别
数据仓库的建设往往是按当时的需求进行建设,针对数据资源没有统一规划,数据质量和数据指标体系非常不好。往往出现指标不可信。随着需求不断的累积,传统的数据仓库架构也无法支撑日积月累的数据,所以拥有数据仓库的企业急需通过大数据相关技术+数据治理体系来提升现有的数据仓库,我们统称为大数据时代的数据仓库架构,即大数据治理。
六、主数据
主数据是指满足跨部门业务,跨流程,跨主题,跨系统,跨技术,协同需要的、反映核心业务实体状态属性的组织机构基础信息,主数据具有权威性,全局性,共享性,扩展性等特点。主数据是参与业务事件的主体或资源,是具有高业务价值的、缓慢变化的数据,而且它可能在企业业务开展过程中被反复引用。
七、数据仓库与主数据的区别
1、实时性不同:与传统的数据仓库方案的批量 ETL 方式不同,主数据管理系统在数据初始加载阶段要使用 ETL,但在后续运行中要大量依赖实时整合的方式来进行主数据的集成和同步;
2、数据量不同:数据仓库存储的是大量的历史数据和各个维度的汇总数据,可能会是海量的,而 MDM 存储的仅仅是客户和产品等信息。
3、处理类型不同:主数据管理 (MDM) 系统是偏交易型的系统,它为各个业务系统提供联机交易服务,系统的服务对象是呼叫中心、B2C、CRM 等业务系统;而数据仓库是属于分析型的系统,面向的是分析型的应用,是在大量历史交易数据的基础上进行多维分析,系统的使用对象是各层领导和业务分析、市场销售预测人员等;
八、关于亿信华辰
亿信华辰是中国专业的智能数据产品与服务提供商,一直致力于为政企用户提供从数据采集、存储、治理、分析到智能应用的智能数据全生命周期管理方案,帮助企业实现数据驱动、数据智能,已积累了8000多家用户的服务和客户成功经验,为客户提供数据分析平台、数据治理系统搭建等专业的产品咨询、实施和技术支持服务。
更多关于数据治理文章:
数据治理平台搭建方法论
数据治理平台达到的效果
数据治理的必要性和重要性