睿治

智能数据治理平台

睿治作为国内功能最全的数据治理产品之一,入选IDC企业数据治理实施部署指南。同时,在IDC发布的《中国数据治理市场份额,2022》报告中,蝉联数据治理解决方案市场份额第一。

如何建设一个标签库?

时间:2023-04-27来源:孤独患者浏览数:529

关于标签库笔者写过四篇文章:《百万标签发布了,这是怎样一种体验?》、《十年的标签库建设经历,我得到了什么启示?》、《如何有效推进百万标签库的治理?》、《为什么你的标签库没人用?》,主要谈了关于标签库运营的思考,有读者在微信群提到标签库如何构建的问题,今天就来讲一讲,主要包括五大部分内容:标签库定位、标签体系、产品功能、平台架构及标签运营
一、标签库定位
标签库以标签形式统一客户群数据的封装规范和操作风格,从而实现客户洞察知识的沉淀及共享,并通过产品化的形式实现目标客户群的快速生成和发布,提升营销渠道的客户群投放效率,标签库建设的目的就是为了营销,而不是为了分析。企业的标签库跟广告产业的DMP是类似的,企业内部对自己的用户进行精准投放依赖的是标签库,广告产业DSP依赖的则是DMP。

二、标签体系

标签库的核心当然是标签体系,但每个企业打造的标签体系其实都不太一样,既有共性,也有个性。共性主要体现在用户的一些基础属性,比如年龄、性别、职业、住址等等,个性是由于每个企业的产品特点、基础数据、目标受众都不太一样,比如运营商的标签会侧重通信消费、通信行为,而电商的标签则会侧重线上消费的各种特征,以下是某运营商8年前的一个标签分类示意。

但即使是同一个企业,也会由于业务的变化和数据能力的提升而大幅改变标签体系,比如运营商自从引入DPI、位置信令数据以后,其标签体系会向线上、线下的生活情况转变。

在设计标签体系的时候,要避免追求形式和逻辑上的完美,一定要从企业的营销实际出发,到一线进行充分的调研后确定要建设的内容,以下是以前的一个标签调研表格示例,方便理解。

标签按照生成方式有三种类型:基础属性、业务经验、分析模型和个性标签。

基础属性标签:基础属性标签是指从业务平台等数据源直接获取数据,一般通过信息整理或基础属性判定规则即可生成标签,比如品牌、集团属性、地域属性等。
业务经验标签:主要是利用业务人员经验积累的业务规则进行筛选、分析生成标签名单,数据口径的业务逻辑较清晰明确,可解释性强,比如中高端用户。

分析模型标签:主要是利用已有基础数据进行一定的筛选、分析、关联和数据挖掘,生成客户标签结果信息,比如易离网用户。
个性化标签:标签一般要具有共性的价值,但实践中很多标签属于探索性质,个性化很强,应允许在标签体系之外增加个性标签发布类目。基础标签可以基于数据仓库的基础模型、融合模型直接生成,分析模型标签则依赖于挖掘模型的结果,一般来讲,基础属性标签最多,业务经验标签其次,分析模型标签最少,这是因为一个企业内大多数营销所需的目标客户需要直接、清晰而可解释。
三、标签库功能
标签体系是标签库的内涵,而标签库的功能决定了这些标签能否方便使用,酒香也怕巷子深。标签库的核心功能包括标签创建、标签查询、客户群生成、客户群推送、标签元数据、调度管理这几项,其他的诸如标签编辑、标签停用、标签下线、标签评论、标签审批、标签推荐、安全管理等等,可以放到次优先级。很多看起来挺好的功能在运营初期一点价值都没有,你需要聚焦核心功能。
1、标签创建标签创建一般要支持三种模式:简单模式,高级模式,导入模式。
简单模式
:面向业务人员,可以基于现成的模型宽表选择属性字段生成标签,如下图所示,但受限于开放的宽表的能力和业务人员的驱动力,在我们的实践中,这种简单模式并没有获得成功。

高级模式:面向独立编写SQL能力的使用人员,如下图所示,但要让标签库同时具备数据开发环境的能力,是比较理想化的。

实践中更多的还是通过数据开发平台生成后台表,同步到标签库后台,标签库再配置发布,虽然比较繁琐,但跟企业的数据开发体系是融合的。我们后来直接让标签库前台对接数据开发平台的元数据,可以基于数据开发平台的表一键发布成标签,如下图所示,现在数据开发平台也可以一键发布到标签库,这样就很方便了,标签库一定要约束其功能的范围。

2、标签查询标签查询一般要支持二种模式:目录视图,搜索视图

3、客户群生成客户群生成一般可以包括客户群计算、客户群分析、客户群拓展三个模块。客户群计算:基于标签的组装生成客户群是标签库最核心的功能,主要包括选择标签及属性、配置标签逻辑关系、配置客户群属性三部分,如下图所示:

客户群分析:客户群在投放前往往还需要进行多维度分析(比如位置、收入、区域、性别、年龄、总量等等),方便对客户群做出进一步调整,如下图所示:

客户群拓展:选择某个客户群作为种子用户,找到这部分用户的维度特征(当然还可以有其他办法),然后基于这些维度特征找到其他相似用户,从而扩大投放用户群,这个功能其实不太实用,实践中拓展用户群往往是通过放宽标签设置条件去做。

4、客户群推送没有出口的标签库是没有价值的,标签库需要对外开放,能够将客户群按照一定的接口规范, 通过标准化的交互接口,提供给外部系统进行使用,包括同步、异步及订阅等多种方式,一般推送的对象就是营销管理平台或者说是DSP。

推送客户群有一个关键就是有来有回,你出去的数据,必须能跟踪到渠道投放情况,做不到这一点,就无法形成闭环,后面的运营就很难开展。很多企业标签库和投放端是两个团队,数据有去无回,标签的优化就很难做了,长远来讲损害企业利益。

5、标签元数据标签元数据是整个元数据管理体系的一部分,主要包括对标签数据来源、数据处理过程、数据建模过程、标签口径、标签效果等的说明,透明化的第一目的就是让这个标签值得信任,业务人员敢用,其次是方便核查问题,但标签的元数据很难做好,比如效果的自动获得对于投放的闭环要求非常高。

四、标签库架构1、标签库系统数据流向下图通过一个案例显示了标签库的数据流向,方便你理解其中的逻辑关系。

(1)(2)(3)(4):外围系统提供数据通过ETL工具同步到主仓库和专题库(5)(6)(7):主仓库、专题库、创新应用平台生成的基础模型、融合模型、挖掘模型结果同步到标签库(8):标签后台库负责标签的生成、标签宽表存储、客户群计算及清单存储,向非结构化库输出个人标签清单(9):基于文件系统非结构化存储个人用户的标签信息(MogoDBS), 满足对外快速查询需求(10):标签前台库存储标签、客户群、资源权限等系统配置信息2、标签库系统部署结构

标签库有大量的关联批量计算任务,对于在线分析的时限要求高,因此MPP架构往往是后端数据库的选择之一,在某些所见即所得的场景(比如在线统计),可以混合使用ES等查询引擎来提升体验。五、标签运营标签库建完了只是万里长征的第一步,有了平台后最关键的是运营体系的打造。在《百万标签发布了,这是怎样一种体验?》这篇文章里笔者谈了面向对外变现是标签库需要与时俱进行,传统的对内的标签体系是适应不了外部要求的。在《十年的标签库建设经历,我得到了什么启示?》这篇文章里笔者谈了标签库的定位问题,只有将标签库纳入营销生产流程,标签库才有发展的机会,不要把它当成一个玩数据的地方。在《如何有效推进百万标签库的治理?》这篇文章里笔者谈了标签不能只上不下,否则标签体系会走向混乱,最终变得毫无价值。我们当前的重点工作全部在标签库的运营上,你需要时刻对标签库进行体检,发现问题,解决问题,这些有赖于机制和流程的建立,下面是运营月报的示例。


(部分内容来源网络,如有侵权请联系删除)
立即申请数据分析/数据治理产品免费试用 我要试用
customer

在线咨询