数据仓库和数据湖的区别

企业数字化转型共 1 个回答

口头爱人

2022-11-11

数据仓库和数据湖，是大数据架构的两种设计取向。两者在设计的根本分歧点是对包括存储系统访问、权限管理、建模要求等方面的把控。

数据湖优先的设计，通过开放底层文件存储，给数据入湖带来了最大的灵活性。进入数据湖的数据可以是结构化的，也可以是半结构化的，甚至可以是完全非结构化的原始日志。另外，开放存储给上层的引擎也带来了更多的灵活度，各种引擎可以根据自己针对的场景随意读写数据湖中存储的数据，而只需要遵循相当宽松的兼容性约定（这样的松散约定当然会有隐患，后文会提到）。但同时，文件系统直接访问使得很多更高阶的功能很难实现，例如，细粒度（小于文件粒度）的权限管理、统一化的文件管理和读写接口升级也十分困难（需要完成每一个访问文件的引擎升级，才算升级完毕）。

而数据仓库优先的设计，更加关注的是数据使用效率、大规模下的数据管理、安全 / 合规这样的企业级成长性需求。数据经过统一但开放的服务接口进入数据仓库，数据通常预先定义 schema，用户通过数据服务接口或者计算引擎访问分布式存储系统中的文件。数据仓库优先的设计通过抽象数据访问接口 / 权限管理 / 数据本身，来换取更高的性能（无论是存储还是计算）、闭环的安全体系、数据治理的能力等，这些能力对于企业长远的大数据使用都至关重要，我们称之为成长性。