首页 亿信华辰大数据问答 从数据仓库、数据湖到湖仓一体
我要提问
写回答

从数据仓库、数据湖到湖仓一体

企业数字化转型 共 1 个回答
  • 口头爱人
    口头爱人

    2022-11-11

    近几年,数据湖和数据仓库的应用场景和分界还是很清晰的。数据仓库擅长的BI、数据洞察离业务更近、价值更大,而数据湖里的数据,更多的是为了远景。但是随着数据处理技术的发展以及AI的广泛应用,原来为画饼准备的数据湖里的数据得以重见天日,其价值被重新定义。这就是湖仓一体化。

    如今对数据价值的深度挖掘成了行业客户普遍关注的热点,所以很多人就想能不能把数据仓库和数据湖的价值进行叠加,让数据流动起来,减少重复建设。比如,让“数仓”在进行数据分析的时候,可以直接访问数据湖里的数据。再比如,让数据湖在架构设计上,就“原生”支持数仓能力。

    正是这些想法和需求,推动了数仓和数据湖的打通和融合,也就是当下炙手可热的概念:Lake House,现在也叫智慧湖仓。智慧湖仓架构最重要的一点,是实现“湖里”和“仓里”的数据/元数据能够无缝打通,并且“自由”流动。湖里的“新鲜”数据可以流到仓里,甚至可以直接被数仓使用,而仓里的“不新鲜”数据,也可以流到湖里,低成本长久保存,供未来的数据挖掘使用。

    在湖仓一体化架构下,以下场景得以实现:

    可以将数据湖中最近几个月的“热数据”抽取到数仓中;
    可以轻松将大量冷门历史数据从数仓转移至成本更低廉的数据湖内,同时这些移到湖里的数据,仍然可以被数仓查询使用;
    处理数仓内的热数据与数据湖中的历史数据,生成丰富的数据集,全程无需执行任何数据移动操作;
    生成的新数据集可以插入到数仓中的表内,或者直接插入由数据湖托管的外部表中。
    在实际业务场景中,数据的移动不只是存在于数据湖和数据仓库之间,可以简单归纳为三种,一种是由外向内的数据入湖,第二种是由内向外的数据出湖,第三种是围绕数据湖数据在数据服务组件之间流动。数据越多,管理和治理起来就越困难,就会形成所谓的“数据重力”现象。湖仓一体化不仅需要把数仓和数据湖集成起来,还要克服数据重力,让数据在服务之间按需流动。

    湖仓一体化也好,智能湖仓也好,并非单一产品,它描述的是一种架构。这套架构,以数据湖为中心,把数据湖作为中央存储库,再围绕数据湖建立专用“数据服务环”,环上的服务包括了数仓、机器学习、大数据处理、日志分析,甚至RDS和NOSQL服务等等。

您可能需要的数据产品
亿信华辰助力政企数字化转型

现在申请试用亿信华辰数据软件,马上可获得:

50+

领导驾驶舱、大屏分析等BI模板

100+

多行业数字化转型解决方案

1500+

海量工具及行业应用学习视频

立即申请试用
customer

在线咨询