【LLM】大语言模型在用户兴趣探索中的应用

一、结论写在前面

传统的推荐系统通过学习和强化过去的用户-物品交互形成强烈的反馈循环，这反过来限制了新用户兴趣的发现。

为了解决这一问题，论文引入了一种结合大型语言模型（LLMs）和经典推荐模型的混合层次框架，用于用户兴趣探索。该框架通过“兴趣集群”控制LLMs和经典推荐模型之间的接口，集群的粒度可以由算法设计者明确确定。该方法结合了LLMs在推理和泛化方面的优势，以及经典推荐模型的基础。它首先使用语言表示“兴趣集群”，并利用经过微调的LLM生成严格属于这些预定义集群的新兴趣描述。在低层次上，它通过限制经典推荐模型（在这种情况下是一个基于Transformer的序列推荐器）返回属于高层次生成的新集群的物品，将这些生成的兴趣具体化为物品级别的策略。

论文在一个服务于数十亿用户的工业级商业平台上展示了这种方法的有效性。实时实验表明，新兴趣的探索和用户对平台的整体享受度都有显著提升。未来的工作将重点关注考虑长期效应，以进一步改进使用LLMs进行推荐系统的分层规划。

二、论文的简单介绍

2.1 论文的背景

推荐系统在帮助用户导航如今网络上庞大且不断增长的内容方面不可或缺。然而，这些系统往往受到强烈的反馈循环的影响，推荐与用户过去行为相似的物品。经典推荐系统根据用户的历史交互推断其下一个兴趣。虽然这对短期参与可能有效，但它限制了用户发现新兴趣，导致内容疲劳。最近的研究强调了用户兴趣探索的重要性，旨在引入超出用户历史偏好的多样化内容。然而，由于兴趣空间的广阔和用户对先前未见兴趣的亲和力的高度不确定性，有效地向用户引入新兴趣是具有挑战性的。

近期在大语言模型（LLMs）和其他基础模型方面的突破为革新推荐系统提供了机遇。这些模型中预训练的世界知识有可能通过引入多样化和偶然的推荐来打破推荐反馈循环，解决用户兴趣探索的挑战。尽管先前的工作已经展示了通过将推荐问题转化为自然语言处理任务来使用LLMs进行推荐的潜力，但在现实世界的工业推荐系统中部署这些方法仍然极其挑战，原因如下：

(1) 与领域特定的推荐模型不同，LLMs缺乏对工业规模在线平台上大规模且快速演变的物品库（例如，YouTube每分钟上传超过500小时的内容，Spotify每秒上传一首新曲目[18]）的深入了解；

(2) 现成的LLMs不了解用户的协作信号，无法捕捉领域特定的用户行为；

(3) 为每个用户请求服务的LLMs的延迟和成本巨大，无法满足工业推荐平台预期的O(100ms)响应时间和生产查询每秒(QPS)要求。

为了克服上述挑战，论文引入了一种结合LLMs和经典推荐模型的混合层次规划范式（如图1所示），用于大规模推荐系统中的用户兴趣探索。

图1：基于LLM的混合层次规划图，用于用户兴趣探索

为了表示动态用户兴趣并将昂贵的LLM推理转移到离线阶段，使其可行地在线提供LLM生成的新的兴趣转换。

2.2 论文的方法

这里论文将介绍混合层次规划范式以及为实现受控生成和用户行为对齐而设计的LLM微调过程，以将LLMs应用于现实世界的大规模推荐系统中。

图2：当K=2时的新兴趣预测提示

2.2.1 预备知识

在线平台上物品数量庞大且新物品不断涌入，使得在个体物品层面进行LLM规划变得不可行。因此，论文利用LLM在物品兴趣层面的规划能力来缩小规划空间。高效层次规划的前提是一组高质量的物品兴趣集群，其中每个集群内的物品在主题上是一致的。遵循与[6]相同的程序，论文根据物品的主题一致性将其分组为N个流量加权的等尺寸集群，这种方法已被证明能很好地扩展到论文问题的规模。

为了创建这些集群，论文首先根据物品的元数据（标题、标签等）和内容（帧和音频）将其表示为256维嵌入。然后，论文根据相似性在图中连接物品并将其聚类为流量平衡的集群。这个聚类过程重复多次以创建一个4级树结构，每个物品与不同的树级相关联。更高级别的集群代表更广泛的主题，而更低级别的集群代表更具体的主题。

2.2.2 混合层次规划

混合方法结合了LLM产生语言策略，生成高层级的新兴趣，以及经典推荐模型产生物品策略，将这些基于语言的兴趣落实到低层级的物品空间。这种混合方法结合了LLM在推理和泛化方面的优势，以及领域特定的推荐模型在处理物品动态和增强个性化方面的能力。

高级语言策略。鉴于历史用户兴趣按语言进行表示，论文首先使用大型语言模型（LLM）来学习一个高级语言策略，该策略能够生成新颖的用户兴趣。论文不再使用物品描述来代表用户，而是提出采用集群描述（即一组关键词）来代表用户消费历史，即用户的过往兴趣被表示为其最近K次交互的独特集群序列，每个集群由其描述来表示。具体而言，根据用户先前消费的独特集群，论文可以要求LLM根据图2所示的提示生成下一个新颖兴趣。

图3：标签（即由微调后的LLM生成)分布：X轴表示标签频率；Y轴表示每个频率范围内标签的百分比

实际应用意义。将LLM部署到工业规模的推荐系统中的一个主要挑战在于其高昂的推理成本无法满足延迟和QPS要求。根据经验，论文发现依赖少量历史集群来代表每个用户可以有效平衡表示粒度和计算效率。在论文的实验中，二级聚类产生了761个集群。因此，论文可以枚举所有761 * 761 = 579,121个集群对，并在几小时内使用LLM进行批量推理，以获取每个集群对的创新兴趣。这些创新兴趣连同输入的集群对可以存储在一张表中。在线服务期间，当有新用户请求时，论文首先通过从其观看历史中抽样

个项目来表示用户，并将它们转换为集群对以进行查找，以确定推荐的创意兴趣集群。

低级项目策略。一旦获取了基于语言的新用户兴趣，下一步就是将其转换为项目级别的推荐策略。一个直接的方法是依赖搜索引擎根据新兴趣的关键词检索最相关的项目。然而，搜索结果往往缺乏个性化，因为这些基于语言的新兴趣可能仍然广泛且缺乏特异性。为了增强个性化，论文建议重用特定领域的推荐模型，特别是基于Transformer的序列推荐模型[8, 27]，但将项目限制在由基于语言的新兴趣指定的集群中。具体来说，论文遵循以下两个步骤：(i) 将生成的新兴趣映射到集群ID空间，(ii) 在这些集群ID上限制原始项目级别的softmax策略，以仅从这些集群中检索项目。

受控生成。剩余的挑战是如何指定LLM生成兴趣的粒度，并将生成的新兴趣映射到集群ID。LLM的自由格式响应可能是任意的，不太可能直接匹配预定义的集群描述。论文通过层次聚类和选择集群级别来控制生成的粒度。此外，适当微调使LLM能够使用兴趣集群的语言，生成恰好匹配预定义集群之一的集群描述。

表4 (a) 模型微调过程。(b) 和 (c) 不同推荐系统在实际实验中的对比。

2.2.3 用户行为对齐的微调

在大规模公开互联网数据上训练的LLMs包含了丰富的全球知识，然而它缺乏以下能力：1) 受控生成（即在兴趣集群空间内生成）和2) 特定领域用户行为对齐。论文建议通过使用商业平台上真实用户观看历史精心策划的数据集进行监督微调，注入这些特定领域的知识。因此，用于微调的数据质量对其成功至关重要。

多样化的数据策划。以K=2为例，每个微调数据样本，包含一个集群对以形成提示，以及随后的新集群作为微调标签。这些样本随后按其标签分组，并针对每个标签选择出现频率最高的10个集群对，形成最终的多样化数据样本，覆盖所有标签。通过这些步骤，论文获得761 * 10 = 7,610个数据样本（每个标签集群10个），并使用这些样本对LLM进行监督微调。

在图3中，论文展示了经过微调的大型语言模型（LLM）在579,121个上下文集群对上生成的兴趣集群分布。当使用多样性较低的微调数据时，论文从初始的25万个数据中随机选取7,610个转换及其对应的后续集群来构成数据集，微调后的LLM生成的兴趣呈现出高度偏斜，少数生成的集群具有非常高的频率（如图中区域B所示）。当论文增加微调数据的多样性时，这些主导标签消失，生成集群中频率非常低的数量（如图中区域A所示）也减少。确保微调数据均匀覆盖所有集群，使论文能够解决模型生成集群中的长尾分布问题。这种处理不仅减轻了行为数据中的反馈循环效应，而且提高了整体用户满意度。

控制生成能力与用户行为对齐。微调步骤的数量决定了LLM的全球知识与任务特定知识之间的平衡。论文的微调过程主要有两个目标：(1) 控制LLM生成，使其语言与兴趣集群相符。论文评估微调后LLM生成的匹配率，以确定输出是否与集群描述完全匹配；(2) 与真实世界用户转换对齐，通过比较微调和测试集中微调后LLM的输出与成功的用户兴趣转换来计算召回率。较高的召回率表明LLM从微调数据中学习到领域特定的创新转换，并与用户行为对齐。

在图4(a)中，当批量大小为16时，论文展示了匹配率和召回率随着微调步骤进展而发生的变化。论文注意到，格式化学习，即学习感兴趣集群的语言，首先启动，在约2,000步达到峰值。在高匹配率（超过99%）的情况下，论文能有效地将生成内容映射到集群ID空间，并限制在这些集群上对原始项级softmax策略的应用。随后，模型开始与用户行为对齐，导致在微调集上的召回率显著增加。此外，论文发现，在过渡对齐之后，独立测试集的召回率也随之增加，在约3,000步达到峰值后逐渐下降。因此，论文选择微调了3,000步的模型。需要注意的是，测试集上的召回率远低于微调集，表明LLM仍然严重依赖其全局知识，而不是在生成新兴趣时记忆日志中的兴趣过渡。

2.3 论文的效果

2.3.1 实验设置

论文在一个服务于数十亿用户的商业短视频推荐平台上进行了一系列现场实验。论文的实验使用Gemini-Pro 进行，但同样的微调过程和流程可以轻松适应其他LLM。论文为LLM推理设定了历史集群数量K = 2，然而它很容易在未来的迭代中通过稀疏表扩展以适应更大的数量。

基准模型。论文将所提出的方法与现有的生产模型进行比较：（1）探索导向模型包括：一种新颖性增强的序列推荐器[9]，该推荐器使用来自正样本和以前未在用户消费历史中出现的聚类中的新颖物品的标签进行训练；基于3.1节介绍的分层聚类的分层上下文强盗，通过基于树的LinUCB探索用户的兴趣以获取下一个聚类，然后使用序列模型将检索限制在物品上。尽管这些模型旨在探索用户兴趣，但它们是在系统中存在的兴趣转移上训练的，因此仍然受到反馈循环的影响。（2）利用导向模型包括常规的双塔模型[34]和基于Transformer的[8, 27]序列模型，这些模型是根据所有正向用户反馈进行训练的。论文的实时实验结果表明，与这些现有模型相比，所提出的方法能够带来更具新颖性和更高品质的推荐。

2.3.2 结果与分析

新颖性与质量。在图4（b）中，论文将所提出的方法与当前生产中的各种基准模型进行了比较。以分层上下文强盗的性能为参考，论文衡量了其他模型的改进。具体来说，论文绘制了新颖印象比例的增加（仅考虑用户从未交互过的兴趣聚类中的印象）以突出推荐的新颖性（x轴），以及正向反馈率的增加以展示推荐的质量（y轴）。所提出的方法相比所有基准方法推荐了更多新颖的物品（x轴右侧）。此外，它在质量上远超现有的探索导向方法，与利用导向方法相当（x轴上较高）。换句话说，所提出的方法提供了一种有效的方式，向用户介绍对其有吸引力的新颖兴趣。

用户兴趣探索。为衡量推荐系统是否鼓励用户探索新兴趣，论文采用了一项指标UCI@N，该指标追踪过去7天内消费过来自N个独特聚类兴趣项的用户数量。较高的UCI@N意味着更多用户正在消费N个兴趣。通过监测不同N值（20至200）下的UCI@N，论文能评估系统在用户兴趣探索方面的有效性。图4(c)总结了论文的方法相较于分层上下文 bandits 在用户兴趣探索方面的改进，以评估其效果。值得注意的是，与当前生产中部署的显著探索模型相比，论文提出的方法在不同N值下展现出了非常显著的改进。

用户增长。同时，论文监测了总体观看时间的增长以及活跃用户数量（总观看时间≥10分钟），以衡量短视频平台上用户的增长情况（见图5）。x轴代表实验周期（具体日期已隐去），y轴显示实验组与对照组之间的相对百分比差异，对照组排除了所提出的系统。论文的方法通过推荐多样且新颖的内容成功拓宽了用户兴趣，促进了用户增长。这突显了推荐的新颖内容的质量和相关性。

图5：所提出的方法驱动用户增长

论文标题：LLMs for User Interest Exploration: A Hybrid Approach
论文链接：https://arxiv.org/pdf/2405.16363

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。