某大宗商品领军企业:数据仓库平台

应用产品: 数据工厂

项目亮点: 数据仓库

公司介绍

该企业为世界500强企业、中国大宗商品领军企业,以2334亿元营收位列2021年《财富》世界500强,连续4年上榜。

该企业致力于成为全球领先的大宗商品综合性产业集团,当前,该企业顺应新一轮科技革命和产业变革趋势,在全球范围内积极拓展大宗商品产业链,聚焦大宗商品资源、供应链服务等核心领域,加快推动新材料、新技术创新突破,同时围绕主业布局开展产业投资及城市综合配套服务;分支机构覆盖中国香港、新加坡、瑞士、英国、德国、法国、美国等国家和地区,业务节点沿着“一带一路”遍布亚洲、欧洲、美洲和非洲等地。




项目背景

随着集团业务的快速发展变化,集团和各业务板块信息系统的完善以及业务数据的积累,板块业务内部形成各自独立的数据信息孤岛的现状,各自为政,自己做自己的局面,业务重复建设,业务系统公司各级决策者更加注重对海量数据的分析利用。

通过新搭建的数据仓库平台打造,实现分主题、细粒度、多维度、覆盖历史的数据集中存储汇总,解决数据孤岛,释放业务系统压力,规范数据的管理,提供全局的决策支持能力和经营分析能力支持。集团数据仓库平台的建设,无论是对于集团的数据资产积累沉淀,还是对于更深层次的数据分析、数据预测、数据驱动,都是必不可少的基础设施。

项目痛点

首先,现阶段各个产业板块自身各业务系统间数据独立分散,存在数据孤岛,共享度和利用度低,集团数据资产无法有效沉淀、整合和复用,因而较难对数据进行深度建模挖掘,数据利用流于表层。

再者,我们目前处于数据建设的初期阶段,数据管理像“黑盒子”,数据缺乏统一规范和模型管理能力,对数据质量的把控能力也很低,而目前所使用的数据库只能搭建单一应用集市,无法支持规范化的数据仓库建设,且对高并发、大数据量计算支持很差,进而不同数据应用间难以共享数据和维度,内部开发工作量大且效率低,业务对前端数据应用的体验也不够优良。
建设内容

系统规划


项目建设规划架构图


本系统架构中从下至上规划了五层,从长远发展战略的角度进行了综合考量,保证能满足未来各类应用能提供数据支撑服务。

1、基础设施

指本系统中所基于的物理软硬件设备设施,是保障本系统能运行起来的基础。

2、业务系统

指本系统中我们需要接入的入仓数据源范围,从整体上可完全覆盖全业务链的业务接入需求,HR、MDM、BPM、财务、社区、金融以及手工的业务数据源,本期先实现社区和手工的业务数据源入仓工作。

3、数据仓库

数据仓库是最重要的一环,所有入仓的数据都存储于本层,数据仓库采用分层的方式分别存储不同类别的数据,为后面的数据应用服务做基础支撑。这样更灵活的设计后面新业务入仓的存储,屏蔽各业务系统的应用数据瓶颈。

4、支撑系统

支撑系统也是十分重要,下游所有应用数据的加载、数据处理均需要通过本层的技术手段来实现,以ETL、调度和管理数据仓库系统中的元数据管理等功能作为支撑。

5、数据应用

数据应用主要实现数据最终的应用,可满足企业未来的报表平台、数据挖掘及决策支持提供服务。


数仓建设


1、分层设计

本数仓项目,我们规划了4层设计,即:技术缓冲层,ODS层,DW层(在本层中又细化分为:DWD层,DWS层)和DM层。

2、概念模型规划



3、数据映射关系设计

完成数据源到缓冲层映射关系设计、ODS层到整合层映射关系设计、整合层到汇总层映射关系设计、汇总层到集市层映射关系设计。

4、ETL建设过程

• 首先是从数据源的接入到缓冲区,通过kettle的job来进行数据的集成工作任务。

•  完成ODS层到整合层的ETL的开发和建设,为整合层提供准确、一致的数据。

•  整合层到汇总层的ETL的开发和建设,保证ODS层和汇总层的数据一致性和稳定性。

•  集市层的ETL的开发和建设,数据来源从整合层,或是汇总层作为来源。

•  将上述两套ETL整合进调度平台,实现调度平台对所有ETL的管理、调度和监控。

项目价值

该项目最终帮助该集团实现了全集团统一业务视图,屏蔽业务孤岛,实现跨系统业务数据交互;实现了统一数据支撑服务,对外提供一致的数据服务,解决数据的二义性;实现了数据历史变化追踪,对数据资产积累进行沉淀,支撑更深层次的数据分析预测和驱动。


通过数据仓库建设及优化设计,原业务系统某些计算时间长达30分钟的报表,可以在不到2分钟的时间内计算输出报表结果,大大提升了报表计算的性能。

助力政企数字化转型 让每个决策都有数据支撑
customer

在线咨询

在线咨询

点击进入在线咨询