睿治

智能数据治理平台

睿治作为国内功能最全的数据治理产品之一,入选IDC企业数据治理实施部署指南。同时,在IDC发布的《中国数据治理市场份额,2022》报告中,蝉联数据治理解决方案市场份额第一。

标签与指标到底有什么区别?

时间:2022-10-13来源:暴力社浏览数:369

傅一平评语:

标签和指标都是数据加工的结果,是对数据的一种描述和解读,往往大量出现在宽表中,区分清楚这两个概念的区别有助于更好的理解数据模型,这篇文章对两者的区别做了很好的诠释,值得看一看,我的理解是这样:

指标是对各种客观事物的数值描述,标签是对各种客观事物的特征标识,前者回答“是多少”问题,一般具有统计性质,比如到达用户数,后者回答“是什么”问题,一般具有形容性质,比如高端用户。

正文开始

最近在工作中也经常和标签、指标打交道,但是似乎很少有人能完全说明白这两者的明确定义、区别和联系,今天尝试来聊聊这个问题。

内容

本来应该先从定义开始,但是数据玩家找了很多定义,总感觉很晦涩,需要一定的深入思考和实践经历才能完全理解,于是我们先暂时不看定义,从两者的特征开始比较,第一个特征是两者的内容。

常见的指标,宏观层面比如GDP、CPI、PPI,金融机构常用的存贷比、不良率、AUM,产品运营的MAU、DAU、LTV等等,都是对一个客观事实的描述,通常以可量化的数值形态呈现,或为数值,或为比率。

一个指标通常包含三个部分:口径/逻辑、维度、限定词。

口径和逻辑,也就是这个指标具体的含义,首先得有一个业务口径,然后由技术把他落地成为一个技术的加工逻辑,从哪几个表取,count、sum、max、min或者是avg。

维度指的是我们从什么角度去看这个指标,是时间维度(年/月/日)、机构维度(不同分支机构)还是客群或产品维度,在SQL语句里就是group by。

限定词就是在这个维度下,我们选取哪一个具体的枚举值,对应SQL语句就是where条件。

举个栗子,AUM的业务口径是客户名下所有资产,包括存款、理财、代销基金、保险等…… 技术的加工逻辑会有一长串SQL,关键的点是所有金额做sum。

如果只看全行的AUM,是不需要维度的,如果要看具体某一个维度,就需要group by了,指标就变成了按机构维度看AUM,即group by org。

限定词就是要看某个具体分行,比如上海分行所有客户的AUM,SQL语句里就需要加上 where org = '021'。

不论怎么定义,大家可以发现,每一个环节都是陈述事实,实际的数值是多少就是多少,指标只是按不同的方式展示这个值,这也带来指标的另一个特征:指标基本都是数值型

当然,不排除有些定性指标,比如在KPI中,有的考核指标描述为:某项工作是否完成,不过绝大多数核心指标,都应该是量化的。

与指标不同,标签是存在人为划分的。

比如AUM>=100万在某些银行就是私行客户了,但是在大行估计就是个高净值客户。

标签通常是描述某些具体实体的,比如AUM>=100万,你一定可以挑出一些客户满足这个特征,但是指标陈述的通常是抽象概念,比如AUM本身,你没法对应到一个或者一群具体客户身上。

有些标签看上去人为定义的成分比较少,也是基于事实进行定义的,比如性别标签,车辆品牌标签,车主客户标签,代发客户标签……

所以我在标题里加了“往往”,遇到这类标签的时候,我们的直觉也会告诉我们,这是标签,而不是指标,原因参考指标的另一个特征。

对,指标基本都是数值型,而标签基本都不是数值型

哪怕是基于数值型的标签,一定也要有个人为划分的定义。

比如上面提到的,基于AUM构建客户等级标签,AUM是个数值型的指标,标签定义为AUM等于、大于或小于某一个值,人为划分了客户的等级。

因此标签可以基于指标来定义,那么指标可不可以基于标签来定义呢?

当然可以,比如“私行客户转化数量”,这里用到了一个标签“私行客户”,私行客户本身又依赖于AUM等指标。

所以标签和指标可以相互转化

分类

指标的分类相对还是比较统一的,通常划分为原子指标、派生指标、衍生指标。

原子指标不叠加任何维度,仅是对业务事实的最基本描述,通常是一些整体指标,通过SQL直接统计出来的,比如客户数、留存率、交易量……

但是实际业务使用中,更关心某一特定维度的指标,比如手机银行客户数、7日留存率、长尾客群交易量……

因此我们有了派生指标。派生指标就是原子指标叠加一个或多个维度。

手机银行客户数是客户数叠加产品或渠道维度;7日留存率是留存率叠加时间维度;长尾客群交易量是交易量叠加客群维度(这里客群是一个标签)。

仅仅叠加维度还不够,有时候我们还需要不同指标之间互相计算,最常见的就是求人均和比率,比如客群AUM、存贷比……

这就是衍生指标,即通过原子指标或派生指标互相加工而来。

标签由于其人为划分的特性,分类就没那么统一,比较常见的一种划分为事实标签、规则/统计标签、模型标签。

事实标签也是描述实体的客观事实,比如上文提到的性别、车主等等,描述一些具体实体的特征。

规则/统计标签是基于事实的统计结果结合一些人为判断生成的,比如青年客户(年龄在18到35之间)、中年客户(年龄在36到55之间)、老年客户(年龄55+)等等。

模型标签就比较主观了,是通过事实标签和规则/统计标签,抽象出来的群体特征,其划分的群体通常比上两类标签更细。比如“月光一族”,“消费达人”等。

应用场景

现在大家已经对标签和指标有了相对明确的概念,我们来看看两者的应用场景有何差别。

通常拆解使用

指标的使用场景,一般都是一个大指标,拆解到某个或多个维度,附加一个或多个限定词

用于经营分析、监测、评价、建模

在经营分析中,用于监测和评价业务效果、考核情况等,所有的KPI都是指标用于评价和监测业务效果。

需要不断归纳和抽象

标签是基于底层数据的归纳和抽象,希望刻画某一群实体的特征,通过标签,一定可以定位一群具体的实体,可能是客户,也可能是产品。

用于标注、分类、刻画群体特征

标签的核心其实是分类,针对每一个分类,希望能够给予不同的营销策略、产品策略、触达策略等。

不过,由于标签和指标可以互相转化,因此在实际运用中,也不用过多纠结两者的区别,因为两者通常是结合起来使用的。

总结

总结一下,指标描述客观事实,通常是抽象的概念,以量化指标为主,拆解到不同维度,用于经营分析、监测、评价和建模;

标签人为划分,描述特定群体的实体特征,可以定位到具体实体,难以量化,归纳和抽象形成,用于标注、分类、刻画群体特征。

(部分内容来源网络,如有侵权请联系删除)
立即申请数据分析/数据治理产品免费试用 我要试用
customer

在线咨询