睿治

智能数据治理平台

睿治作为国内功能最全的数据治理产品之一,入选IDC企业数据治理实施部署指南。同时,在IDC发布的《中国数据治理市场份额,2022》报告中,蝉联数据治理解决方案市场份额第一。

网易数据分析大赛获奖作品分享:歌曲鉴赏人选品

时间:2022-08-29来源:抠脚女汉子浏览数:186

在当前的网易云音乐曲库中,歌曲可以根据播放量级的不同,从小到大归类为“金字塔”形状的层级结构。云音乐生态致力于帮助优质歌曲内容一路扶持成长,但是由于小歌的歌曲表现特征稀疏和稳健性欠缺,扶持策略捞取歌曲时的歌曲结构难以与“金字塔”结构保持一致,并对尾部歌曲捞取不足。

导读:

大家好,我们来自网易云音乐数据产品团队,首先感谢网易数帆的同事组织此次数据分析大赛,同时也非常荣幸代表MUSE团队来参加这次比赛,我们参赛的题目是《歌曲鉴赏人选品》。主要从4个部分跟大家逐一介绍,分别是项目背景、痛点分析、落地方案和最终效果。

1项目背景

在内容、社区、电商等行业内部,普遍存在用户行为稀疏,内容冷启动难和优质内容发掘难等问题。网易云音乐同样存在大量长尾内容,其中不乏沧海遗珠有待发现,亟需给予流量扶持和精细运营,但传统的外包人工审核和打分机制,势必会导致发掘效率低下,且易受到人为偏好影响而有失偏颇。为此,本项目旨在通过搭建潜力内容挖掘模型,打破内容单维度衡量标准,优化内容流量分发机制,从而打造健康可循环的内容生态。

在当前的网易云音乐曲库中,歌曲可以根据播放量级的不同,从小到大归类为“金字塔”形状的层级结构。云音乐生态致力于帮助优质歌曲内容一路扶持成长,但是由于小歌的歌曲表现特征稀疏和稳健性欠缺,扶持策略捞取歌曲时的歌曲结构难以与“金字塔”结构保持一致,并对尾部歌曲捞取不足。长此以往,“尾部歌曲”供应不足,未来的腰部和头部歌曲后继无歌,待分发的优质歌曲将会出现结构性断层,优质歌曲内容生态循环链存在“断链”危机。

2挑战

鉴于尾部歌曲行为稀疏,难以藉此有效捞取潜力歌曲,曾经尝试以纯人工的方式借助业务经验为歌曲背书。具体机制是,通过基础规则过滤,每日选取600首歌分配给6人打分团队,每首歌曲经过三轮打分,确定人工综合得分。而后根据打分高低遴选前30首歌曲给予定量分发、助其扩圈。经过半年人工打分的沉淀,共有千量级的歌曲被人工试听并获得打分。但总体复盘来看,3日600首的速度难以追赶云音乐日益丰富的创作歌曲量,海量歌曲无法在成长期获得打分露出的机会,从而与分发机会失之交臂。

除去人工效率考量,我们对比发现人工打分歌曲的升级成功率远低于大盘水平,这一方面是由于人工打分存在主观性、缺乏统一评分标准,分数准确性不能保证;另一方面,由于人工打分团队人员固化,在音乐品味上与网易云音乐的听众不够“相似”,故“人工打分高”和“歌曲有潜力升级”不能直接画上等号。总之,单纯依靠人工背书的方式评判尾部歌曲质量并不顺利。

3落地方案

在衡量用户音乐欣赏行为高低的因素中,用户对音乐的鉴赏能力是极为重要的一环。鉴赏能力较强的用户通常是某些垂类音乐风格下的专家,不仅能够在该垂类风格下不断深耕,还能在歌曲成长生命周期的早期挖掘出好的音乐,并能通过不同渠道通过分享影响其他用户。因此我们决定通过制定一套「鉴赏伯乐挖掘选品」来发现平台内鉴赏能力较强的用户人群,在不打扰用户的前提下既公平的获得歌曲评分,又能极大发挥用户的鉴赏价值。

3.1 什么是「鉴赏伯乐挖掘模型」

整体思路是通过内容找人、人找内容的方式,通过用户近半年内收藏歌曲成长表现中各项数据指标,包括收藏歌曲数量、收藏歌曲升级等级数、收藏歌曲升级比例等维度,并对这些维度的数据进行加权处理,最终得出百分制的评分标准,来对这些用户的鉴赏能力进行由高到低的评定。从根本上解决此前员工打分效率低、主观性强的痛点,并且可以无感知地借用站内用户的力量,形成完全零成本的"众包"打分模式。

挖掘鉴赏人特征

根据用户听歌时长、涉猎范围、垂类触及等方面,按照多、广、深三个方面对鉴赏人的鉴赏能力进行挖掘,并区分出不同垂类曲风、地域、语种的鉴赏人等级。

如何排除干扰项

为了保障用户行为数据可信,对黑名单、爆款、非优质歌曲进行排除限制,一是针对MUSE平台的违规歌曲以及短期刷量的黑名单歌曲进行排除,二是针对歌曲上线即巅峰的爆款歌曲进行排除。三是针对歌曲历史最高等级没有到达腰部的非优质歌曲进行排除。

3.2 如何搭建「鉴赏伯乐挖掘模型」

鉴赏人的挖掘具体分为2部分:

Step1:收藏时间限定

即 「发现歌曲时间权重分」,对用户收藏某首歌曲的时间先后进行加权处理。在某首歌曲播放到达最高等级的成长周期中,对歌曲进行较早收藏的用户得分更高,以表现该用户更好的鉴赏能力。并且在这部分中,针对用户“歌曲上线即收藏”的情况进行了0分的降权处理,以避免爆款歌曲或狂热粉丝对模型的干扰。

Step2:品味分布限定

即「收藏歌曲升级权重分」,在计算收藏歌曲升级权重得分时,将只收听某位艺人/某种曲风的狂热粉丝行为进行降权处理,以避免某个用户只收藏单一某个艺人/曲风的情况。根据前两步的歌曲条件限定和用户行为限定,综合生成“收藏歌曲升级权重分”,表示用户收藏歌曲中升级歌曲的最终权重得分。

3.3 各垂类鉴赏人分布

「鉴赏伯乐挖掘模型」基于这两个因素在不同曲风垂类下挖掘出的鉴赏者,由用户数据表现和听歌风格分布计算他们的「鉴赏人得分」,并根据得分将这批用户划分为四级:A、B、C和D级。因各个垂类的人群数量及分布差异,将垂类分为大垂类和小垂类,并基于不同垂类的特征设定不同的分级标准。

大垂类包括:华语流行、华语嘻哈说唱、英语流行、英语嘻哈说唱;

小垂类包括:其他;摇滚;R&B;日语;电子;民谣乡村;爵士古典;国风;汉语;其他流行。

4最终效果

通过「鉴赏伯乐挖掘模型」,我们从平台中发现了100w+各音乐垂类领域下的识曲行家,并依靠这些用户的鉴赏能力筛选出未来可能会火的种子歌曲,为算法补充尾部潜力歌曲资源。

4.1 鉴赏人画像

全能鉴赏人,该用户近一年收听359首处于生命周期早期的歌曲,这些歌曲在用户收听时并未被广泛宣传,但在之后逐渐拥有了大规模听众,其中有36首歌曲达成了等级越迁,包括「致你」这种爆款歌曲。该用户的top1鉴赏曲风是华语流行,可以借用他在华语流行歌曲中的鉴别能力尽早挖掘出潜在爆款歌曲,并及时对歌曲进行扶持,加速其成长。

垂类鉴赏人,该用户是一名英语说唱的偏好者,近一年听了102首尚未被发觉的尾部歌曲。由于英语说唱歌曲的生产力无法与华语流行相比,因此该用户的识曲数量有限,挖掘好歌的难度也更大。但即便如此,他也挖掘出了3首优质垂类歌曲,每首歌曲最终都完成了3级以上的等级越迁。

由此可见,在我们平台中隐藏着不少民间高手,通过他们对各音乐曲风的鉴别能力,可以将处于生命周期早期的歌曲挖掘出来,并结合我们的算法在不同渠道中分发给更多用户,积累更多的用户行为数据,就能根据歌曲的后续健康度表现,判断是否需要加速分发帮助歌曲破圈,尽快成长为爆款。

4.2 鉴赏人选歌

接下来是一个「鉴赏伯乐挖掘模型」帮助长尾歌曲成长的例子。「多喝热水」这首歌自上线以来长期处于只有极少数人在听的状态,4月3日被鉴赏者发现并红心收藏,鉴赏者对该歌曲的背书被我们立即识别到,并于第二天引入算法流量进行扶持分发,之后退出扶持再让其自然成长。经过2-3天的加量扶持后,歌曲有了一定的人群受众,之后逐渐快速成长,因各项指标一直良好,被算法再次加量扶持,最终冲上了站内排行榜。

平台中的广大鉴赏人为我们成功地发现了许多优质小歌,这些小歌被扶持后的播放等级越迁成功率超过40%,比例远高于之前人工打分的3%。同时「鉴赏人挖掘模型」可以每天基于海量鉴赏人听歌识曲数据对尾部小歌进行评分,及时发掘平台中所有的潜力歌曲提供给算法做扶持,解决了尾部歌曲行为稀疏难选品的问题,优化了目前平台尾部歌曲捞取不足、待分发的优质歌曲将会出现结构性断层的问题。

4.3 方法论拓展

「鉴赏伯乐挖掘模型」通过内容找人、人找内容的方式不断为平台挖掘有潜力的歌曲,帮助其进行冷启扶持,快速破圈,最终成为爆款;同时也使云音乐的歌曲生态循环链更加完整。「鉴赏伯乐挖掘模型」更是当前内容生命周期「卡巴拉生命树」冷启中的重要一环,后续我们计划将这套歌曲扶持体系应用于更多内容场景(例:歌单、播客)。

(部分内容来源网络,如有侵权请联系删除)
立即申请数据分析/数据治理产品免费试用 我要试用
customer

在线咨询