首页 亿信华辰大数据问答 如何搭建大数据分析平台?
我要提问
写回答

如何搭建大数据分析平台?

大数据分析平台 共 1 个回答
  • 一個人流浪
    一個人流浪

    2022-09-16

    一般的大数据平台从平台搭建到数据分析大概包括以下几个步骤:
    Linux系统安装。分布式计算平台或组件安装。
    数据导入。数据分析。一般包括两个阶段:数据预处理和数据建模分析。数据预处理是为后面的建模分析做准备,主要工作时从海量数据中提取可用特征,建立大宽表。
    数据建模分析是针对预处理提取的特征或数据建模,得到想要的结果。结果可视化及输出API。可视化一般式对结果或部分原始数据做展示。一般有两种情况,行数据展示,和列查找展示。

    其实题主需要搞清楚以下几个问题,搞清楚了,其实问题的答案也就有了:
    1、是从个人学习成长的角度想搭建平台自学?还是现在的公司需要大数据技术进行分析?——如果是从个人学习成长的角度,建议直接按照Hadoop或者Spark的官网教程安装即可,建议看官网(英文),在大数据技术领域,英语的掌握是非常重要的,因为涉及到组件选型、日后的安装、部署、运维,所有的任务运行信息、报错信息都是英文的,包括遇到问题的解答,所以还是非常重要的。如果是公司需要进行大数据分析,那么还要研究以下几个问题:为什么需要搭建大数据分析平台?要解决什么业务问题?需要什么样的分析?数据量有多少?是否有实时分析的需求?是否有BI报表的需求?——这里举一个典型的场景:公司之前采用Oracle或MySQL搭建的业务数据库,而且有简单的数据分析,或者可能采购了BI系统,就是直接用业务系统数据库进行支持的,现在随着数据量越来越大,那么就需要采用大数据技术进行扩容。
    搞清楚需求之后,按照以下的步骤进行:
    1、整体方案设计;整体方案设计时需要考虑的因素:数据量有多少:几百GB?几十TB?数据存储在哪里:存储在MySQL中?Oracle中?或其他数据库中?数据如何从现在的存储系统进入到大数据平台中?如何将结果数据写出到其他存储系统中?分析主题是什么:只有几个简单指标?还是说有很多统计指标,需要专门的人员去梳理,分组,并进行产品设计;是否需要搭建整体数仓?是否需要BI报表:业务人员有无操作BI的能力,或团队组成比较简单,不需要前后端人员投入,使用BI比较方便;是否需要实时计算?
    2、组件选型;架构设计完成后就需要组件选型了,这时候最好是比较资深的架构师参与设计,选型包括:离线计算引擎:Hadoop、Spark、Tez……实时计算引擎:Storm、Flink、Samza、Spark Streaming……BI软件:Tableau、QlikView、帆软……
    3、安装部署;选型完成后,就可以进行安装部署了,这部分其实是最简单的,直接按照每个组件的部署要求安装即可。
    4、另一种选择:采用商用软件如果是企业需要搭建大数据平台,那么还有一种选择是直接采用商用的数据平台。市面上有很多成熟的商用大数据平台,Cloudera、星环、华为、亚信等等,都有对应的产品线
    主要有以下几个特点:
    1.一站式。一站式数据开发产品体系,满足企业建设数据中台过程中的多样复杂需求。
    2.兼容性强。支持对接多种计算引擎,使更多企业“半路上车”。
    3.开箱即用。基于Web的图形化操作界面,开箱即用,快速上手。
    4.性价比高。满足中小企业数据中台建设需求,降低企业投入成本。

您可能需要的数据产品
亿信华辰助力政企数字化转型

现在申请试用亿信华辰数据软件,马上可获得:

50+

领导驾驶舱、大屏分析等BI模板

100+

多行业数字化转型解决方案

1500+

海量工具及行业应用学习视频

立即申请试用
customer

在线咨询