睿治

智能数据治理平台

睿治作为国内功能最全的数据治理产品之一,入选IDC企业数据治理实施部署指南。同时,在IDC发布的《中国数据治理市场份额,2022》报告中,蝉联数据治理解决方案市场份额第一。

数据分析师7大技能:构造标签

时间:2022-03-26来源:帅到失眠浏览数:120

上期分享了数据分析师必备技能:构建指标体系。这次分享一个和指标体系同等重要的技能:构造标签(俗称:打标签)。打标签能力,是区分真数据分析师和sqlboy 的重要能力

一、什么是标签?

标签是对事物的概要性描述。就像商品标签上会写商品分类、主要原料一样。虽然一件商品有很多属性,但是我们只通过几个有限的标签,就能锁定我们想要的商品,这就是标签的作用。

二、有哪些标签? 

从复杂程度上看,标签有四类:

1、事实型标签。比如商品的颜色、人的性别。这些是事实描述,可以直接拿来用。

2、规则型标签。比如把“消费1000元以上”定义为:高消费群体。规则类标签,往往是基于一个数据指标,然后根据特定的规则进行分类。

3、复合型标签。比如“高富帅”,就是一个典型复合型标签,它基于N个指标,进行综合计算,最后得出一个标签结果。

4、预测型标签。注意,以上三类标签,用的都是已经发生的数据进行计算。预测型标签则是对未来情况的估计。可以用算法进行预测,也能人工预测。比如对用户进行分类,然后打个标签“预计流失用户”,就是指该用户会在未来XX时间内流失掉。这四类标签的复杂程度是不同的:预测型>复合型>规则型>事实型。相应的打标签的难度也不一样。

三、要怎么打标签? 

打标签是个通俗说法,它指的是生产标签的过程。如果是简单的事实型标签,则直接拖过来用即可。其他三类,都得经过打标签的动作,越复杂的标签,生产起来越麻烦。打标签有四个标准步骤。 明确打标签的对象 明确标签的用途 明确标签规则 明确标签的名称 举个最简单的例子:小熊妹还没有男朋友,我想找个高富帅。高富帅,就是个复合型标签,按四步走:

1、打标签对象:男人,活的

2、明确用途:选个潜在蓝盆友

3、明确规则:这是最复杂的一步,因为高富帅有三个维度。首先得一个维度一个维度,单独讲清楚,然后再想办法综合。这里,高相对容易,看身高然后给个标准即可。帅,也相对容易,看到照片自己觉得还行,手工打个标签即可。富,就很纠结了。有的人挣得多,可也花得多呀。不能光看收入,还得看负债。这样,先对三个维度各自打标签,再进行综合(如下图)。综合的方法,可以用优先级排序,或者做综合评分(如下图):看起来综合评分似乎更科学,但实际决策时候并不是!比如我,看到帅哥就走不动道了,管他富不富呢。综合评分有可能选出来平庸的个体,这个要注意哦。

4、明确标签的名称:高富帅、非高富帅搞掂!可以看出,在生产标签的过程中,明确规则是最麻烦的一步。但实际上,麻烦不限于此。

四、打标签,难在哪?

看完上边的小例子,很多人会觉得:“打标签很简单呀,我一个上午能打1000个出来”。如果只是往数据库里添加1000个新字段,确实很容易。但是,这1000个字段: 有几个能被业务部门用起来? 用完以后能提升业务表现? 还有多少业务想要的标签,没有在其中? 这才是真正的难题。反正我是见过,供应商傻乎乎的打了几百个标签,结果除了上线汇报ppt外,业务部门看都不看一眼的,更不要提用了。一个好的标签,一定是: 业务高频使用 指向明确动作 产生明显效果 就像小熊妹一听人介绍“高富帅”,就会顶着周五熬夜煲剧的黑眼圈起床化妆俩小时出门一样。这才是高频使用,有驱动力,产生明显效果的标签!肯定有小伙伴问,业务上有没有这种标签,当然有,比如我个人很喜欢的:促销敏感型用户(是/否),这个标签。专门区分:没有促销不买,有促销高概率买的薅羊毛体制用户。拿来解释日常消费转化率,事前预计活动效果,事后复盘达成情况,都好用(先卖个关子,之后专门分享这个)。实际业务问题经常很复杂,很难用一个标签描述情况,因此需要围绕一个业务场景。构造若干个标签,形成标签体系,驱动业务工作。

(部分内容来源网络,如有侵权请联系删除)
立即申请数据分析/数据治理产品免费试用 我要试用
customer

在线咨询