推荐系统评估

如果我们只关心推荐算法这一内核，其目标就在于更好的分发系统中的内容，让每一篇内容获得展示，让每一个用户有更多的点击，评估指标可以拆分为两部分：

推荐准确度。对应到内容推荐系统中，表现为对用户点击的预判（点击率）和对消费情况（点击后的各种主动行为）的印证。由于这部分数据是可以复用既有数据进行离线计算的，故通常用于各种算法的迭代。

推荐覆盖度(多样性)。好的推荐系统是能够给用户推荐视野范围之外内容的。从用户的角度来看，可以评估用户的展示历史中各种题材、类目、话题的丰富程度是怎样的，丰富度越高代表个体体验上多样性越好。从内容的角度来看，可以评估有推荐展示的内容占整体内容量的占比，或是整个内容分发体系的基尼系数。

以Netflix为例，其站在视频被播放的角度，使用了ECS（Effective Catalog Size）指标来衡量系统推荐的多样性。如果系统内绝大多数的播放都来自同一部视频时，ECS指标接近于1；如果系统内每部视频都有相近的播放量时，ECS指标将等于影片数。如下图，对比应用了个性化推荐技术和只采用热门排序的情况，ECS相差近4倍，即系统中有更多长尾的视频都得到了有效的展示和播放。

当然，只有一部算法引擎，推荐系统这部赛车是无法正常运转的。推荐算法应当服务于整体系统的目标，比如用户端的内容消费量、长期留存、作者端的活跃度等。为了这些长线目的，会给推荐算法补充很多其他目标，这些目标可能会对短期点击率构成损伤。

指标是我们对于业务的抽象和预判印证，所以客观上它是后验性的体现。如果只关注已有指标，很容易让我们忽略了那些尚没有被纳入指标体系之内的信息。比如：如果只有全局内容分发多样性的指标而没有个体多样性指标，那么很可能出现全局内容基尼系数不高，但个体多样性体验极差的情况。又如，某些内容的点击率还不错（如蛇、野生动物捕食），但是对敏感人群构成了极大的伤害。

基于此，我们需要在数据指标的基础上，增加人工评估的环节，以帮助我们更好更快的发现潜在的问题。

援引公开博文，Facebook亦建立了一套完整的人工评估系统，分为三个部分：1-1用户访谈，面向常驻千量级外包团队的人工评估(Feed Quality panel)，面向万量级普通大众的问卷。问卷表现为多种形式：

给出两篇内容，让用户进行点对点的对比
给单篇展示打分选项，建议用户从相关性、信息量等角度给予1-5分的评分
提出开放性问题的方式来收集用户对于自己信息流的反馈。

借由人工问卷反馈，可以得到一些有趣的信息。比如，人们更愿意在信息流的头部看到那些他们愿意互动的内容或是那些更愿意打高分的信息。基于此，Facebook在排序算法中将用户的互动预估（点赞、评论）较高的内容和用户更愿意首先看到的内容进行了提权。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。