传统的推荐系统通过学习和强化过去的用户-物品交互形成强烈的反馈循环,这反过来限制了新用户兴趣的发现。
为了解决这一问题,论文引入了一种结合大型语言模型(LLMs)和经典推荐模型的混合层次框架,用于用户兴趣探索。该框架通过“兴趣集群”控制LLMs和经典推荐模型之间的接口,集群的粒度可以由算法设计者明确确定。该方法结合了LLMs在推理和泛化方面的优势,以及经典推荐模型的基础。它首先使用语言表示“兴趣集群”,并利用经过微调的LLM生成严格属于这些预定义集群的新兴趣描述。在低层次上,它通过限制经典推荐模型(在这种情况下是一个基于Transformer的序列推荐器)返回属于高层次生成的新集群的物品,将这些生成的兴趣具体化为物品级别的策略。
论文在一个服务于数十亿用户的工业级商业平台上展示了这种方法的有效性。实时实验表明,新兴趣的探索和用户对平台的整体享受度都有显著提升。未来的工作将重点关注考虑长期效应,以进一步改进使用LLMs进行推荐系统的分层规划。
推荐系统在帮助用户导航如今网络上庞大且不断增长的内容方面不可或缺。然而,这些系统往往受到强烈的反馈循环的影响,推荐与用户过去行为相似的物品。经典推荐系统根据用户的历史交互推断其下一个兴趣。虽然这对短期参与可能有效,但它限制了用户发现新兴趣,导致内容疲劳。最近的研究强调了用户兴趣探索的重要性,旨在引入超出用户历史偏好的多样化内容。然而,由于兴趣空间的广阔和用户对先前未见兴趣的亲和力的高度不确定性,有效地向用户引入新兴趣是具有挑战性的。
在线平台上物品数量庞大且新物品不断涌入,使得在个体物品层面进行LLM规划变得不可行。因此,论文利用LLM在物品兴趣层面的规划能力来缩小规划空间。高效层次规划的前提是一组高质量的物品兴趣集群,其中每个集群内的物品在主题上是一致的。遵循与[6]相同的程序,论文根据物品的主题一致性将其分组为N个流量加权的等尺寸集群,这种方法已被证明能很好地扩展到论文问题的规模。
在大规模公开互联网数据上训练的LLMs包含了丰富的全球知识,然而它缺乏以下能力:1) 受控生成(即在兴趣集群空间内生成)和2) 特定领域用户行为对齐。论文建议通过使用商业平台上真实用户观看历史精心策划的数据集进行监督微调,注入这些特定领域的知识。因此,用于微调的数据质量对其成功至关重要。
多样化的数据策划。以K=2为例,每个微调数据样本,包含一个集群对以形成提示,以及随后的新集群作为微调标签。这些样本随后按其标签分组,并针对每个标签选择出现频率最高的10个集群对,形成最终的多样化数据样本,覆盖所有标签。通过这些步骤,论文获得761 * 10 = 7,610个数据样本(每个标签集群10个),并使用这些样本对LLM进行监督微调。
在图3中,论文展示了经过微调的大型语言模型(LLM)在579,121个上下文集群对上生成的兴趣集群分布。当使用多样性较低的微调数据时,论文从初始的25万个数据中随机选取7,610个转换及其对应的后续集群来构成数据集,微调后的LLM生成的兴趣呈现出高度偏斜,少数生成的集群具有非常高的频率(如图中区域B所示)。当论文增加微调数据的多样性时,这些主导标签消失,生成集群中频率非常低的数量(如图中区域A所示)也减少。确保微调数据均匀覆盖所有集群,使论文能够解决模型生成集群中的长尾分布问题。这种处理不仅减轻了行为数据中的反馈循环效应,而且提高了整体用户满意度。
控制生成能力与用户行为对齐。微调步骤的数量决定了LLM的全球知识与任务特定知识之间的平衡。论文的微调过程主要有两个目标:(1) 控制LLM生成,使其语言与兴趣集群相符。论文评估微调后LLM生成的匹配率,以确定输出是否与集群描述完全匹配;(2) 与真实世界用户转换对齐,通过比较微调和测试集中微调后LLM的输出与成功的用户兴趣转换来计算召回率。较高的召回率表明LLM从微调数据中学习到领域特定的创新转换,并与用户行为对齐。
在图4(a)中,当批量大小为16时,论文展示了匹配率和召回率随着微调步骤进展而发生的变化。论文注意到,格式化学习,即学习感兴趣集群的语言,首先启动,在约2,000步达到峰值。在高匹配率(超过99%)的情况下,论文能有效地将生成内容映射到集群ID空间,并限制在这些集群上对原始项级softmax策略的应用。随后,模型开始与用户行为对齐,导致在微调集上的召回率显著增加。此外,论文发现,在过渡对齐之后,独立测试集的召回率也随之增加,在约3,000步达到峰值后逐渐下降。因此,论文选择微调了3,000步的模型。需要注意的是,测试集上的召回率远低于微调集,表明LLM仍然严重依赖其全局知识,而不是在生成新兴趣时记忆日志中的兴趣过渡。
新颖性与质量。在图4(b)中,论文将所提出的方法与当前生产中的各种基准模型进行了比较。以分层上下文强盗的性能为参考,论文衡量了其他模型的改进。具体来说,论文绘制了新颖印象比例的增加(仅考虑用户从未交互过的兴趣聚类中的印象)以突出推荐的新颖性(x轴),以及正向反馈率的增加以展示推荐的质量(y轴)。所提出的方法相比所有基准方法推荐了更多新颖的物品(x轴右侧)。此外,它在质量上远超现有的探索导向方法,与利用导向方法相当(x轴上较高)。换句话说,所提出的方法提供了一种有效的方式,向用户介绍对其有吸引力的新颖兴趣。
用户兴趣探索。为衡量推荐系统是否鼓励用户探索新兴趣,论文采用了一项指标UCI@N,该指标追踪过去7天内消费过来自N个独特聚类兴趣项的用户数量。较高的UCI@N意味着更多用户正在消费N个兴趣。通过监测不同N值(20至200)下的UCI@N,论文能评估系统在用户兴趣探索方面的有效性。图4(c)总结了论文的方法相较于分层上下文 bandits 在用户兴趣探索方面的改进,以评估其效果。值得注意的是,与当前生产中部署的显著探索模型相比,论文提出的方法在不同N值下展现出了非常显著的改进。
用户增长。同时,论文监测了总体观看时间的增长以及活跃用户数量(总观看时间≥10分钟),以衡量短视频平台上用户的增长情况(见图5)。x轴代表实验周期(具体日期已隐去),y轴显示实验组与对照组之间的相对百分比差异,对照组排除了所提出的系统。论文的方法通过推荐多样且新颖的内容成功拓宽了用户兴趣,促进了用户增长。这突显了推荐的新颖内容的质量和相关性。
图5:所提出的方法驱动用户增长
论文标题:LLMs for User Interest Exploration: A Hybrid Approach
论文链接:https://arxiv.org/pdf/2405.16363
联系客服