睿治

智能数据治理平台

睿治作为国内功能最全的数据治理产品之一，入选IDC企业数据治理实施部署指南。同时，在IDC发布的《中国数据治理市场份额》报告中，连续四年蝉联数据治理解决方案市场份额领先。

在线免费试用 DEMO体验视频介绍

睿治智能数据治理平台

IDC蝉联数据治理解决方案市场领先

详解企业级数仓设计与搭建，Flink/SparkSQL全部涵盖！

时间：2022-04-21来源：三月浏览数：342次

本质上，数据仓库就是一种数据库，由一张一张数据表组成，用来存放数据。

大数据，其实就是数据库技术以及分布式体系的结合。所以要搞好大数据，就得从这两方面入手！

今天咱们主要聊聊数据仓库技术。本质上，数据仓库就是一种数据库，由一张一张数据表组成，用来存放数据。

当然，两者之间的差异也是非常大的，比如数据库是为捕获数据而设计的，数据仓库是为分析数据而生。目的和应用场景不同，让它们在架构体系和建模设计上面有非常大的不同。这里就不过多赘述了。

数仓通常是一个企业数据分析的起点，架构和逻辑一般如下图所示：

数仓在构建的时候通常需要ETL处理和分层设计，基于业务系统采集的结构化和非结构化数据进行各种ETL处理成为DWD层，再基于DWD层设计上层的数据模型层，形成DM，中间会有DWB/DWS作为部分中间过程数据。

而在实践中，数仓随着技术和业务的不断发展，也演进出了几种主要的架构方法，从传统数仓架构，到Lambda架构（离线数仓+实时数仓），再到Kappa架构（实时数仓）不一而足。

各个架构各有优劣，实际工作中到底选择哪种架构，还是需要根据具体的业务需求来决定。

当然，更多的时候，为了应对更广泛的场景，大多数公司采用的是混合架构，也就是Lambda和Kappa的结合，比如大部分实时指标统计使用Kappa架构完成计算，少量关键指标使用Lambda架构用批处理重新计算，增加一次校对过程。

这些复杂架构落地的过程中，大数据工程师们会面临非常多的挑战，比如离线&实时数仓的技术选型要怎么选、分层设计要怎么做，更具体的，基于Spark SQL的离线数仓要怎么搭建、基于FlinkSQL的实时数仓又要怎么搭建……非常容易踩坑！

（部分内容来源网络，如有侵权请联系删除）

立即申请数据分析/数据治理产品免费试用我要试用

上一篇：数据治理：管理数据资产的最佳实践框架...

下一篇：运营商数据湖技术设计的5个要点...

相关主题
相关大数据问答
相关大数据知识

可视化网页编辑工具银行湖仓一体公司年度财务分析报告 BI数据分析报告 BI数据分析的作用智能驾驶舱智能驾驶座舱如何用EXCEL做数据分析报告数据分析走向人流大数据分析数据字典管理数据治理需要收集那些信息大数据系统架构图数据分析的方法不包括统计报表设计

1 狭义上理解的数字化转型指的是什么？

2 在企业数字化转型建设过程中业务侧主要存在哪些问题？

5 什么是数据交换平台？数据交换平台的作用是什么？

BI数据分析

主数据

数据治理

数据集成

数据采集

指标管理

智能体问数

资产运营

数据填报

数据处理

指标管理

报表分析

敏捷分析

大屏可视化

智能分析

数据挖掘

移动应用

主数据模型

主数据维护

主数据分发

主数据质量管理

模型管理

元数据管理

数据标准

数据质量

数据资产管理

数据集成管理

数据交换管理

数据安全管理

数据生命周期管理

模型管理

任务管理

调度管理

监控中心

表单设计

数据填报

数据审核

数据审批

数据汇总

数据管理

数据接口

指标体系建设

指标管理与加工

指标运营

指标服务

对话式数据探索的智能问数

更懂数据见解的智能洞察

数据驱动的智能图表

对话式智能看板

交互式智能报告

对话式大屏汇报

一键查询海量文档的知识问答

智能决策的数字助理

资产开发计算

资产治理分析

资产盘点管理

资产服务共享

资产交易流通

大数据治理方案

主数据管理方案

数据资产盘点方案

数据仓库及商业智能方案

大数据资产管理方案

数据标准化及质量管控方案

指标体系建设方案

仓湖一体数据中心建设方案

数据中台解决方案

数据开发平台建设方案

智能问数解决方案

高质量数据集建设方案

金融

制造

医院

能源

教育

卫生

央国企

其他

睿治

智能数据治理平台

睿治智能数据治理平台