睿治

智能数据治理平台

睿治作为国内功能最全的数据治理产品之一,入选IDC企业数据治理实施部署指南。同时,在IDC发布的《中国数据治理市场份额,2022》报告中,蝉联数据治理解决方案市场份额第一。

数据管理平台DMP架构

时间:2021-12-29来源:互联网浏览数:366

狭义的数据管理平台,主要是接受数据拥有者(可能是广告主、也可能不是)的委托,按照其需求进行数据加工,并将加工结果用于指导运营优化、广告投放等任务。其商业模式上做的关键,是“来料按需加工”,当然收取加工费用是正常的。不过既然是来料加工,就不能把“料”(数据)视为DMP的自有资产,也不能将这些数据加工结果用于指导其他客户的商业活动。否则,很容易变成在竞争对手之间倒卖用户的“双面间谍”。

其实这样的DMP,与传统的网站分析(Web Analytics)工具有很强的关系。不过,它可以集成第三方数据采买、对接站外广告投放渠道等功能,而这些是传统的WA所不具备的。

DMP 其实是一个数据管理平台,是把分散的多方数据进行整合纳入统一的技术平台,并对这些数据进行标准化和细分,让用户可以把这些细分结果推向现有的互动营销环境里的平台。

业界代表性的产品有腾讯广点通和阿里达摩盘。它们主要提供创建细分人群、分析用户画像、种子用户群体拓展(lookalike)、再营销、分析投放管理、流量采买和第三方数据接入等功能。

DMP平台架构
1. 商业DMP定位
首先,结合我们的需求,介绍下商业DMP定位,这里介绍的商业DMP主要是指我们商业站内的,主要提供特征挖掘和特征数据服务的能力。

对于开发者,特征挖掘平台提供了简洁、易用的开发SDK,屏蔽实时计算、批量计算、海量存储、高并发服务、各底层分布式系统部署等细节。提供TB级别(N天)行为数据挖掘和秒级别延时实时特征挖掘,支持特征挖掘实验、水平扩展。

对于特征数据服务平台,提供丰富的特征数据(TB级别)和元数据管理,能够提供在线和离线特征数据服务。对于在线,提供稳定的在线特征数据服务,支撑在线推荐系统;对于离线,提供灵活的多维查询,支持按人群特征进行营销活动。

2. 平台业务架构

从数据的产生到标签的加工再到业务应用,在这完整的数据流中,DMP平台其实是起着承上启下的作用,可以把它看做是一个数据工厂,对数据特征进行统一、清洗、加工、转化、提炼,再对外提供相应的数据服务。DMP平台主要包括特征挖掘平台、dmp service、标签元数据管理、监控等模块。

3. 平台逻辑架构
平台逻辑架构主要分为数据层、存储层、计算层、服务层和监控层。

数据层: 提供Kafka、ESB、HDFS、Api等多种异构数据源,通过importer层将数据进行统一的清洗转化,对下形成统一的数据源,从而屏蔽底层的异构数据源。

存储层: 我们实现了存储接口、序列化模块、压缩模块。由于在线推荐特征挖掘提供基于KV键值存储就能满足需求,故底层存储主要提供Redis和自研的wtable等。

计算层: 提供了storm、spark、sparkstreaming、flink等多种计算引擎。在operator模块提供让特征挖掘用户自己实现对应的SDK即可,简便高效,同时对于用户来说屏蔽掉了异构计算。

服务层: 主要提供IDMapping、路由、实验、process四个模块。IDMapping主要是为了打通数据孤岛;路由模块主要是解决流量分发问题;实验模块主要是进行分流实验;process模块主要是提供业务解耦能力。

监控层: 对服务、任务、存储等进行监控,对多环节快速发现定位并解决问题。
(部分内容来源网络,如有侵权请联系删除)
立即申请数据分析/数据治理产品免费试用 我要试用
customer

在线咨询