睿治

智能数据治理平台

睿治作为国内功能最全的数据治理产品之一，入选IDC企业数据治理实施部署指南。同时，在IDC发布的《中国数据治理市场份额》报告中，连续四年蝉联数据治理解决方案市场份额领先。

在线免费试用 DEMO体验视频介绍

睿治智能数据治理平台

IDC蝉联数据治理解决方案市场领先

标签评分：海量标签如何进行系统治理？

时间：2022-09-30来源：他夫人浏览数：303次

标签评分是标签治理的一个重要措施，通过给标签打分，可清晰直观的从各个维度评估标签，掌握标签真实使用情况，进行标签持续优化，助力业务运营。同时，也能帮助数据团队判断哪些标签更应该投入计算与存储资源，合理规划集群资源。

一、为何要使用标签评分

经过前期标签体系设计、标签加工，标签终于可以上线，让业务人员使用，发挥价值了！

随着标签上线一段时间后，我们开始关心每天占用计算资源与存储空间，跑出来的上百个标签，业务同学真的用到了多少，业务收益是否能覆盖数据成本呢？标签上线后，其质量怎么样，是否存在老规则不适用、需要持续优化的情况？

带着这一问题，我们需要用一种方法来评估标签上线后的使用情况，标识各个标签的价值。参考电影评分、花呗评分等形式，我们决定也给标签打个分、排个序，简单明了。

二、标签评分模型

标签评分模型，经过考虑我们选取了5个维度作为评分入参：

标签总评分= a * 标签使用度评分 + b * 标签关注度评分 + c * 标签质量评分 + d * 标签持续优化度评分 + e * 标签安全度评分

其中标签使用度、标签关注度、标签质量、标签持续优化度作为核心维度，标签安全度可根据实际情况考虑是否纳入。a、b、c、d、e是权重，总和为100%。

1. 标签使用度评分

标签使用度，用以评估标签被分析、外部系统的使用情况。

在袋鼠云标签产品中，标签有这几种使用场景：

（1）标签引用：如原子标签被衍生标签应用、衍生标签被组合标签引用等，基于该场景，计算“标签引用次数”指标。

（2）标签分析：标签在标签圈群、群组画像、群组对比、显著性分析等画像分析功能中被分析的情况，计算“标签分析次数”指标。

（3）标签调用：标签通过数据API被外部应用查询的次数，计算“标签调用次数”指标。

基于以上3个指标，我们首先采用Sigmoid函数将指标转化为评分，再将各个指标的评分加权汇总成标签使用度评分。

2. 标签关注度评分

标签关注度，用以评估被搜索、查看、收藏的情况。

袋鼠云标签产品中，标签关注度与以下场景有关：

（1）标签搜索：标签在标签市场被用户搜索的情况，计算“标签搜索次数”指标。

（2）标签查看：标签被点击查看基础信息、分析页面等的次数，计算“标签查看次数”指标。

（3）标签收藏：收藏该标签的用户数，计算“收藏用户数”指标。

以上3个指标可反映标签的关注热度，我们依然采用Sigmoid函数将指标转化为评分，再将各个指标的评分加权汇总成标签关注度评分。

3. 标签质量评分

标签质量，用以评估用户被打标情况，反映标签规则的合理性。

当我们定义了标签和标签值，经过计算之后，标签值打在用户身上的很少，那说明我们的规则执行不合理。比如我们定义了“活跃度”这个标签，分为“高活跃、中活跃、低活跃度”等，但真实被打上的这个标签的用户，低于70%，还有很大一部分比例是空值，未打上该标签，说明我们制定的标签值规则有漏洞，需要完善。

系统将计算每个标签的“标签覆盖度”，将覆盖度归一化为分数，转化成评分。

4. 持续优化度评分

持续优化度，用以评估标签上线后，是否后续再去优化该标签。

在客户的生命周期中，不断有新用户流入、沉默用户流失；公司战略调整、产品发布等都会影响客户行为，这些变化我们需要以数据的方式呈现，所以我们需要不断根据业务调整、客户变化调整我们的标签策略，以追求可通过标签直接地、迅速地反映客户情况，指导业务运营。

持续优化度，我们通过“标签优化次数”指标来评估，指标签上线后标签被编辑再次发布的次数。我们同样采用Sigmoid函数将指标转化为评分。

5. 安全度评分

标签安全度，不能反映标签的热度，但也将其作为了标签评分的一个维度，可根据企业情况考虑是否纳入。

在袋鼠云标签产品中，标签安全相关的策略有：

（1）标签的可见度：标签可编辑、可查看的用户范围。

（2）标签使用是否需要申请授权：标签发布后，其他人使用该标签，是否需要申请审批。

（3）标签是否进行行级权限控制：上面我们控制了标签的列权限，行级权限反映该标签是否设置了行级权限。

（4）标签是否脱敏：标签是否进行脱敏。

根据标签的安全度策略配置情况，我们也采用评分的方式来评估。

基于以上5个维度的评分，我们根据前面提的公式加权汇总，得到总评分。

三、标签评分的应用

基于标签评分，为了更加直观的让标签管理员、业务人员查看热门标签、沉默标签等，通过排行榜的方式呈现。

1. 热门标签排行榜

基于标签的使用度、关注度、持续优化度3个角度来计算标签的热门评分，展示TOP n的热门标签。

热门标签说明这些标签被经常使用，我们需要持续关注这些标签的正常运行、质量，保障业务使用。

2. 沉默标签排行榜

热门的标签的反向排序便是沉默标签，沉默标签说明这些标签使用率很低，可考虑定期下线，节省集群资源。

3. 综合排行榜

综合排行榜便根据标签的综合评分进行排序，从标签使用度、关注度、持续优化度、质量、安全等几个维度评估，全面评估标签。

4. 标签使用度、关注度、持续优化度、质量、安全分榜单排行

用户可根据自己更加关注的维度，查看标签使用度、关注度、持续优化度、质量、安全各个子维度的排行榜。同时，可查看各个标签的具体指标，如使用度维度，可查看各个标签的当前引用次数、分析次数、调用次数，针对具体指标具体分析，满足不同的标签分析场景。

标签评分模型上线后，我们需要根据实际情况调整不同维度的权重，符合自身实际情况。当经过一段时间的应用，大家认可这套评估逻辑之后，便可以将静态化的评分展示转化为动态化的告警、自动化治理等，可设置标签质量告警、评分告警，自动通知标签管理员、责任人等。

以上便是在产品中应用的评分逻辑，希望对大家有所帮助，也可提出不同思路优化评分模型，达到更好的标签治理效果。

（部分内容来源网络，如有侵权请联系删除）

立即申请数据分析/数据治理产品免费试用我要试用

上一篇：比人更聪明更快？金融机构试水AI风控，银行、基金多方入局...

下一篇：数据湖实践一文读懂...

相关主题
相关大数据问答
相关大数据知识

银行主数据数字土壤驾驶舱指标管控系统部队数据采集管理规定元数据仓库可视化表格数据质量落地方案水资源大数据分析数据库系统管理阶段的特点数字化企业有哪些数据分析是不是大数据关于大数据时代的质量信息,描述不正确的是数据仓库中的元数据包括 ES数据分析工具数据平台网页

1 数字化赋能丨工业软件融合创新的鸿沟是什么？怎么解决？

1 主数据中台（Master Data Hub）

BI数据分析

主数据

数据治理

数据集成

数据采集

指标管理

智能体问数

资产运营

数据填报

数据处理

指标管理

报表分析

敏捷分析

大屏可视化

智能分析

数据挖掘

移动应用

主数据模型

主数据维护

主数据分发

主数据质量管理

模型管理

元数据管理

数据标准

数据质量

数据资产管理

数据集成管理

数据交换管理

数据安全管理

数据生命周期管理

模型管理

任务管理

调度管理

监控中心

表单设计

数据填报

数据审核

数据审批

数据汇总

数据管理

数据接口

指标体系建设

指标管理与加工

指标运营

指标服务

对话式数据探索的智能问数

更懂数据见解的智能洞察

数据驱动的智能图表

对话式智能看板

交互式智能报告

对话式大屏汇报

一键查询海量文档的知识问答

智能决策的数字助理

资产开发计算

资产治理分析

资产盘点管理

资产服务共享

资产交易流通

大数据治理方案

主数据管理方案

数据资产盘点方案

数据仓库及商业智能方案

大数据资产管理方案

数据标准化及质量管控方案

指标体系建设方案

仓湖一体数据中心建设方案

数据中台解决方案

数据开发平台建设方案

智能问数解决方案

高质量数据集建设方案

金融

制造

医院

能源

教育

卫生

央国企

其他

睿治

智能数据治理平台

睿治智能数据治理平台