这几年的数据领域有好多的概念,例如:大数据、人工智能、深度学习、机器学习、
数据治理、数据中台、数据平台、数据湖……。新技术、新概念的出现,为企业业务和管理的创新,社会经济的发展,注入新活力,激发新动能。很多企业都认识到了数据的重要性,数据是企业的重要资产,成为了企业的普遍共识。这激活了企业创新和改革的动力,加速了企业向互联网化、数字化方向的转型,提高了企业跨行业、跨领域的学习能力,推动了整个社会的数字化发展。
一、数据中台的概念
数据中台是一个承接技术,引领业务,构建规范定义的,全域可连接萃取的、智慧的数据处理平台,建设目标是为了高效满足前台
数据分析和应用的需求。数据中台距离业务更近,能更快速的响应业务和应用开发的需求,可追溯,更精准。广义上理解,数据中台包含了顶层数据战略、数据治理体系以及数据管理及运营、数据文化培养和组织架构支撑,是一套持续管理和运营的体系。狭义上看,数据中台是通过数据技术,对海量、多源、多样的数据进行采集、处理、存储、计算,统一标准和口径,并以标准形式存储,形成大数据资产层,以满足前台数据分析和应用的需求。
二、数据平台的概念
数据平台在对数据湖的原始数据进行清洗、转换等数据处理后,按照统一的标准规范进行存储,来为前端数据分析应用提供数据集。它是以处理海量数据存储、计算及流数据实时计算等场景为主的一套基础设施,使用大数据平台,企业可以比竞争对手更快地作出数据驱动的决策,更快地推出适应客户需求的产品。
三、数据湖的概念
数据湖作为一个集中的存储库,可以在其中存储任意规模的所有结构化和非结构化数据。在数据湖中,可以存储数据不需要对其进行结构化,就可以运行不同类型的分析。简单来说,数据湖一个大型的基于对象的存储库,以数据的原始格式保存数据。它的显著特点在于,像湖泊一样没有固定形态和边界,能“容纳”各种数据,加入数据就扩大,移除数据会缩小,灵活性和包容性很高。
四、数据湖、数据平台与数据中台三者之间的关系
数据中台与数据湖没有直接联系;数据中台、数据平台与数据湖在某个维度上为业务产生价值的形式有不同的侧重。
数据湖与数据中台的关系:数据湖作为一个集中库,可以在其中存储任何形式(结构化和非结构化)、任意规模的数据。在数据湖中,可以不对存储的数据进行结构化,只有在使用数据时,再利用数据湖强大的数据查询、处理、分析等组件对数据进行处理和应用。因此,数据湖具备运行不同来兴数据分析的能力。数据中台从技术的层面承接了数据湖的技术,通过数据技术,对海量、多源、多样的数据进行采集、处理、存储、计算,同时统一标准和口径,把数据统一后,以标准形式存储,形成大数据资产层,以满足前台数据分析和应用需求。数据中台更强调应用,离应用更近,强调服务于前台的能力,实现逻辑、算法、标签、模型、数据资产的沉淀与复用,能更快的响应业务和应用开发的需求,可追溯,更精准。
区别是:数据中台是企业级的逻辑概念,体现企业数据向业务价值转化的能力,为业务提供服务的主要方式是数据 API;数据平台是在大数据基础上出现的融合了结构化和非结构化数据的数据基础平台,为业务提供服务的方式主要是直接提供数据集;数据中台距离业务更近,能够更快速的响应业务和应用开发需求,从而为业务提供速度更快的服务;数据平台则是将数据服务化之后提供给业务系统,不仅限于分析型场景,也适用于交易型场景;数据中台可以建立在数据仓库和数据平台之上,是加速企业从数据到业务价值的过程的中间层。
五、关于PetaBase-s湖仓一体化平台
PetaBase-s是亿信华辰重磅推出的
企业级实时大数据平台。它基于开源Hadoop框架开发,融合MPP、SQL on Hadoop、流处理等大数据技术,支持海量数据的高效储存和统一管理,为企业决策提供实时的数据支撑。湖仓一体化平台主要解决结构化,非结构化融合存储的混合应用场景,主要面向能源,工业,政务等业务范畴比较广的行业。