睿治

智能数据治理平台

睿治作为国内功能最全的数据治理产品之一,入选IDC企业数据治理实施部署指南。同时,在IDC发布的《中国数据治理市场份额,2022》报告中,蝉联数据治理解决方案市场份额第一。

DPM在数仓建设中的作用

时间:2022-02-09来源:别和我装纯浏览数:238

作者介绍:老朋友了,我就不多做介绍了,现就职BAT一线互联网数仓开发/数据产品经理,喜欢思考数据问题、数据建模、数据sense,谢邀。前文导读:另辟蹊径 | 数仓开发转DPM经验之谈

本文:数据产品经理数仓建设中的作用

如今,互联网中的数据仓库,已不单单是数据开发工程师的责任,随着业务的发展和细分,对产品经理提出了更高的要求。

开发工程师往往不能够第一时间深入理解业务,或者说理解的不够透彻,完全交给数仓工程师开发的数据仓库,不但时间过长(需要理解时间成本),而且不能很好的支持业务。这就需要数据产品经理参与数仓的开发中。不但要参与数据的建模和逻辑的梳理,还要做好数据的管理和规划。

本文不讨论数据建模的过程,只聊聊在数据的管理和规划中,数据产品经理应承担的工作内容和职责。

一、数据的源头-生产端

互联网公司,往往依托用户的行为,来搭建用户的相关行为模型进行分析,所以关于用户行为上报的数据,是最基础的数据也是最重要的数据。只有合理、规范的上报,数据才会产生价值。那么如何做好埋点,并且怎样管理好埋点呢?

1.如何做好埋点

简单来说:需要的数据进行埋点,以交互为底、业务价值为依据、时间为起点、需求为最终目标进行埋点的设计。

交互为底

任何交互的元素都要考虑是否需要进行埋点

业务价值为依据

考虑这个交互是否有实际的业务意义,来判断是否需要埋点

时间为起点

记录此处事件的真实发生时间

需求为最终目标

需求就是’谁对什么做了什么‘

2.埋点管理 一个埋点对应一个标识,通常一款产品包含数百个埋点,也会随着业务和产品的变化,埋点需要增删修改等,所以对埋点管理也是一个重要的步骤。

埋点管理的内容大致包含如下:

1)埋点、埋点含义、触发场景

埋点文档中必须写出埋点上报时机,同时描述准确;

2)参数、参数名称、参数值类型

参数里记录的是针对埋点行为,所包含的信息,埋点行为不同,对应的信息也不同,所以不能作为公共字段记录在数据表中,会以json形式,记录在字段中,分析时需要使用具体的信息,可通过函数解析出来(get_json_object)。

3)元信息、备注信息

备注信息的意义就是解释说明,例如文档中只记录了物品和怪物的id,具体的名称没有记录,是因为日志中存储汉子易出现乱码,仅记录id即可达到分析需求,并且减少数据量。

4)元编码、编码表

同时,埋点文档中,除了第一页sheet表中展示埋点文档外,其后几页需要写出含多个枚举值参数的编码表,方便数据人员进行分析对照。

5)业务宣讲

埋点文档设计完成后,即可提交至研发同学,进行宣讲。用户行为分析是基于埋点完成,其重要性不言而喻,所以后期埋点验收也需要产品经理的参与,确保埋点的准确性。

3.埋点方案

如图,目前业内几种埋点方案类型的比较。参考不同类型埋点的特点,在具体的功能场景时,根据具体情况选择对应方案,进行埋点方案的设计。

二、数据字典

所谓数据字典,就是用来描述数据指标的一个公司内部的埋点规范。它将数据定义、结构、数据类型、数据逻辑、数据源等进行了一个汇总的文档。那么它的生产与管理过程是怎样的呢?

1.字典收集 收集环节是需要对数据字典进行一个详细的定义。需要知晓在业务分析中,数据的使用方关注哪些数据指标、归因包含哪些维度。单纯的从业务产品去思考,会存在缺失,通过与产品/运营同学的交流,可以使字典的内容更加完善。2.标准建设 主要包含两步,新标准的制定和旧标准的修改。新标准除了收集业务方的需求和建议外,还要参考一下业内最新的标准,这样可以满足业内的特定需要。3.标准更新 如果旧标准与现有业务存在冲突,那么就需要积极的与旧标准的业务方沟通,进行因地制宜的协同与调整。三、业务数据管理

业务数据是企业运营各个环节的共用实体,连接企业的各个系统,如果存在业务数据不一致,上有无法对接运营系统,下游无法进行数据分析和整合,各个系统间的数据无法进行关联,对企业的运营支持就很有限。

那么如何做好这些业务数据的管理呢?

部门数据主责

各个部门主责自己的业务数据,编码数据与主数据一致

数据定义明确

数据属性定义、标准、规范等统一维护

维护流程统一

各个部门在申请新的产品时,按照统一申请流程进行填写或修改,流程由数据产品经理统一负责编写与更新

数据共享及时

虽然业务数据不常变化,但是如有变化,实时性非常高,主要主动告知下游的变化情况

数据状态可控

数据的增加、修改、删除、冻结等,需要数据产品经理对数据的版本进行管理

数据属性完备

每款产品,每个数据的属性描述,进行统一的梳理

埋点全链路协同流程

写在最后  以上就是数据产品经理在数仓开发过程中,对数仓的工作内容和职责,主要是集中在数据管理这里,这是一项非常繁琐且重要和有挑战性的工作。如果中间的歧义产生较多,那么就会反馈到业务上来,当进行更深层的业务逻辑分析时,会产生更严重的问题。

今天的分享到这里就要说再见了,希望能对你有所帮忙。数据产品经理DPM和数仓开发工程师是相爱相杀的关系,高效协同配合才能充分发挥数仓的能力和数据的价值。One More,再次谢邀,也欢迎大家关注这个高质量的公众号,一起进步!

(部分内容来源网络,如有侵权请联系删除)
立即申请数据分析/数据治理产品免费试用 我要试用
customer

在线咨询