导语|本文主要分享QQ音乐在内容理解和精细化运营方面的一些实践和经验,副标题是推荐系统的精细化调控,本文主要围绕一些显性的、具可解释性的一些数据驱动方法在内容精细化运营场景的应用。
本文作者:billxia,腾讯音乐数据科学家
本文主要分为5部分:第1部分会介绍业务背景、总体解决方案和收益,第2~4部分分别介绍内容理解、运营中台、投放系统的具体实现方案,最后做一个简单的总结和展望。
01. 背景与方案
1.1 背景
QQ音乐作为一个以PGC内容为主的一款产品,编辑运营的内容占据了用户消费的很大一块流量,运营的诉求是多种多样的:比如新歌运营,重点流派运营(像国风、说唱、韩流等),以及综艺影视歌曲、热点事件或热点歌曲艺人、重点节日或活动的运营等等。
一方面,我们传统的运营手段是通过左边这张图中的 音乐馆 tab 里面的各个入口进行人工配置的,它存在的问题是:
1)比较依赖人工,甚至有时候需要7*24小时处理;
2)入口众多且比较分散,基本无法联动;
3)运营的标准差异较大,缺乏数据反馈;
4)能够展示的内容较少,主要聚焦与头部艺人的内容,没法对海量长尾内容做扶持。
另一方面,我们的推荐系统有很好的数据和模型驱动,也占据很多用户的流量,如右图中推荐tab的图所示,但是它没有运营可介入的抓手,而且也存在以下的问题:
1)太过于聚焦短期的数据表现;
2)内容策略的实验和调整成本太高,比如多加一个召回通路做扶持这个过程还是很漫长繁琐的;
3)对新冷的长尾内容不够友好,虽然也有一些内容冷启动的方案。
总而言之,就是运营需求多样化和运营工具手段缺乏的矛盾,以及内容运营缺乏数据驱动和精细化的能力,是我们面临的两个很重要的问题,这严重阻碍了我们对优质内容的扶持和宣发。
为了解决这两个主要问题,我们参考业界特别是一些广告投放系统的思路,并结合我们内容运营宣发场景做了一些创新,接下来是我们解决方案的主要思路。
1.2 解决方案
我们解决方案的整体目标是,在保证当前用户体验的前提下,通过精细化运营使流量收益最大化。这里用户体验主要是指推荐场景下用户的完播、时长、次留等核心体验指标;而流量收益则包括我们运营的内容的播放份额提升、用户时长的提升,以及通过扶持音乐人的优质作品,吸引更多优质音乐人并创作更多优质作品等。
具体的思路是分3步走:
- 首先是内容理解,也就是建立一套科学的、完备的内容价值评估和挖掘体系,达成对重点内容的“知而善用”和潜力内容的“伯乐识马”;
- 其次是内容扶持,基于科学的内容评估和高效的宣发能力,实现重点内容的扶持目标,保障流量分配的平衡和流量价值的最大化;
- 最后是智能宣发,构建以实时数据表现为正负反馈的智能宣发投放系统,接入多个中心化和个性化点位,获取最优的宣发收益
整体的技术框架如上图所示:
自底向上是一个内容甄选的金字塔,最底下是完整的曲库,经过一些版本、时长、流派标签、上架状态等条件的过滤,到我们的基础内容池。对这个基础内容池,我们区分中头部内容和长尾内容,分别进行内容的价值评估和潜力挖掘。
内容价值评估的结果,主要通过内容运营中台,作用于个性化的排序阶段,提升待扶持内容的排名,通过点位流转后,用户反馈的数据又回到内容价值评估当中,形成一个数据驱动的闭环。
内容潜力挖掘的结果,主要通过精准投放系统,以精准匹配的方式直接触达到用户,同样的也通过实时收集用户反馈,对投放任务进行实时的流量调控,形成另一个数据驱动的闭环。
随着QQ音乐全面个性化的不断深化,个性化的流量已经远超中心化流量。下面以个性化场景为主线(也是我本次分享的副标题——推荐系统的精细化流量调控),来看下以上解决方案在各个推荐模块中的调控方式:
- 内容价值评估和潜力内容挖掘主要作用于内容准入和召回阶段,增加内容的多样性;
- 内容运营中台主要作用于排序阶段,作为排序模型的重要特征或直接作为排序分中重要的因子;
- 精准投放系统则主要作用于重排阶段,强插在推荐结果中给到用户。
从左到右,推荐内容候选集的大小越来越小,而本解决方案对流量的干预程度越来越大。
通过这些调控,我们不仅没有损失用户体验,还在各方面都有一些提升:
- 比如我们内容评估和挖掘使得准入歌曲数提升了10%以上,并且作为排序特征也使得人均时长和完播分别提升了10%、20%以上;
- 而通过内容运营中台,我们使得音乐人等重点内容在推荐点位的播放占比相对提升超过47%以上;
- 在投放系统中,内容的平均完播也是高于各自点位的平均完播的。
02. 内容理解
2.1 概述
在内容消费行业,一个常见的现象是:少数头部的内容占据大多数流量,而尾部很多的内容占据了很少的流量,比“二八定律”会更为夸张,头部内容的数量就如图中冰山之一角,可能只占据了5%~10%,但这部分内容却占据了90%~95%的流量。
在这个大的背景之下,分摊到每一个长尾内容上的用户反馈数据非常稀缺,我们很难获取到高置信度的用户反馈。更加雪上加霜的是,我们每天还有大量新上架的内容,这些冷启动内容的价值评估也是我们面对的难题。
我们解决这些内容质量评估的整体思路是“分而治之”:
- 对中头部内容,使用用户反馈数据为主
- 而对长尾内容,则结合稀疏的用户反馈以及内容本身的一些属性来挖掘和探索
- 对完全冷启的内容,则只通过音频、歌词等内容本身的信息来理解和挖掘了
据此,我将我们内容理解分为三大块,接下来重点介绍其中“价值评估”和“潜力挖掘”的部分,每一个部分又会分为三个小的方向进行介绍。
2.2 内容价值评估