打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
让相关系数来猜猜你喜欢啥?

双11你常光顾的购物网站有没有向你推送“猜你喜欢”的商品?看似贴心推荐的商品并非凭空而来,而是“别有心机”。这背后的原理也没有多玄妙,正是与你刚刚学过的相关系数有关。本期纸老虎就来跟你聊聊“猜你喜欢”背后的统计原理——相关性,猜你能喜欢。


正文改编自:《赤裸裸的统计学》

视频网站根本不知道我是谁,但它又是怎么知道我喜欢看人物纪录片而不是电视连续剧、动作片或科幻片呢?

有一段时间,每当我打开网飞视频的页面,总是会弹出一条收看提示,建议我观看纪录片《布托》:一部关于巴基斯坦前总理贝娜齐尔·布托的生平与悲惨遭遇的“富有深度与煽动性”的电影。我对这部电影的印象不错,而且也把《布托》加入到了我的观看列表中。最神奇的是,在那些网飞推荐给我的影片中,如果是我之前看过的,竟然毫无疑问也都是我非常喜爱的。

网飞公司是如何做到这一点的?这绝不可能是这家公司雇了一大群实习生,整天在谷歌网站上搜索有关我的信息,得出我可能会对一位巴基斯坦前总理的纪录片感兴趣的结论。其实,网飞公司,甚至根本不知道我是谁,但却通过我过去喜欢看什么类型的电影(因为我曾经在网站上为这些电影打过分)的记录,再加上其他用户的评分以及一台强大的电脑,就能对我的电影品位预测得精准惊人。

我将会告诉大家网飞公司做出这些预测的具体算法,现在最重要的一点是这所有的一切都基于相关性。网飞向我推荐的电影与我喜欢的其他影片类似,此外,该网站还向我推荐某些网友高度评价的影片,而这些网友的打分恰恰与我的打分非常接近,可以说这些网友是一群与我“臭味相投”的观影者。纪录片《布托》之所以会出现在我的网页上,是因为我给另外两部纪录片打了满分五颗星,这两部影片分别是《屋内聪明人》和《战争之雾》。

相关性体现的是两个现象之间相互关联的程度,例如在夏天,温度的高低与冰淇淋的销量就存在相关性,当温度升高时,冰淇淋的销量也会相应提高。如果其中一个变量的改变引发另一个变量朝着相同的方向变化,那么我们说这两个变量存在正相关性,就比如身高与体重之间的关系,(一般来说)个子高的人体重会重些,个子矮的人体重会轻些。如果一个变量的改变引发另一个变量朝着相反的方向变化,那么这两个变量就存在负相关性,比如锻炼与体重。

凡事都没有那么简单,有些时候也会出现与上述相关性相违背的现象。有些个子矮的人就是比个子高的人重一些,有些从来不运动的人甚至比运动爱好者苗条,但无论怎样,身高与体重、锻炼与体重之间总是存在着有意义的关联。

相关性可以用相关系数测量。相关系数拥有两个无与伦比的优势。第一个优势体现在数学表达上,它是一个区间为-1到1的常数。如果相关系数为1,即完全相关,表示一个变量的任何改变都会导致另一个变量朝着相同方向发生等量的改变。如果相关系数为-1,即完全负相关,代表一个变量的任何变化都将会引发另一个变量朝着相反方向发生等量的改变。相关系数越接近1或-1,变量间的关联性就越强。如果相关系数为零(或者接近零),则意味着变量之间不存在有意义的联系,就比如一个人的鞋码和高考成绩之间的关系。

第二个吸引人的优势在于,相关系数不受变量单位的限制。我们可以计算身高和体重之间的关联性,哪怕身高和体重的单位分别是英寸和磅。我们甚至还可以计算出高中生家里的电视机数量和他们的考试成绩之间的关联性,而且还可以发现是正相关。这就是相关系数能够为我们完成的一件非常神奇的事情:将大量芜杂无序、单位不统一的复杂数据加工成一个简洁、优雅的描述性数据。

尽管使用相关系数表达关系有很多优势,但我们必须牢记一点,那就是相关关系并不等于因果关系。两个变量存在正相关或负相关的关系,这并不代表其中一个变量的改变是由另一个变量的变化引起的。还举高考的例子,学生的高考成绩和其家里的电视机数量呈正相关关系,但这句话的意思并不是说望子成龙的家长多买5 台电视机摆在家里,孩子的成绩就能提高了,也不是说,学生在家多看电视有助于提高学业成绩。

对这样一个相关性最符合逻辑的解释应该是,受过良好教育的家长既能买得起多台电视机,也能很好地辅导孩子的学习,使其在考试中发挥出色。电视机的数量和考试分数很可能都是由第三个变量——家长的受教育程度决定的。

好了,相关系数的概念讲解到此为止,我们终于可以聊聊视频网站为何能那么准确的预测我对电影的品味了。纪录片电影《布托》是一部关于一个伟大家庭的伟大电影,影片讲述从1947年印度和巴基斯坦分治一直到2007年布托遇刺,让人看来荡气回肠。布托的演讲和采访原音穿插全片,贯穿她的一生。观毕此片,我毫不吝啬地打了5 颗星,完全符合网飞的预测。

归根结底,网飞运用的还是相关性的概念。我在网站上给以前看过的电影评分,网飞将我的评分与其他用户进行比较,从中筛选出与我相关性最高的用户,这些人的电影品位可以说与我是最接近的。数据库一旦建立,网飞就会向我推荐那些与我品位相同的用户打了高分,而我又恰好没有看过的电影。

当然,这只是简略的介绍,真正的方法要比这个复杂得多。2006年,网飞公司发起了一场比赛,邀请公众参与设计影片推荐机制,以帮助网飞现有的推荐方案提高至少10% 的准确率(即用户在观看完推荐影片后给出的评分正好对应网站之前的预测),比赛赢家可以获得100万美元的奖励。

报名参赛的个人或团队都会收到一套“训练数据”,包含了48万名网飞注册用户对1.8万部电影共计1亿多次的评分,但其中有280万个评分是“保密”的,即只有网飞公司知道评分的具体结果,参赛者是不知道的。参赛者需要通过自己的算法和程序,来预测出这些“保密”评分的内容,网飞公司会根据每位参赛者所提交的内容来判断其准确程度。在超过3年的时间里,有来自180 多个国家的团队提交了改进方案,但在参评之前他们必须满足两个条件:第一,获胜者必须将算法程序授权给网飞公司;第二,获胜者必须“向全世界描述你是如何做到的”。

2009年网飞公司终于宣布了比赛的最终结果:获胜者为一个7人团队,由统计学家和计算机专家组成,他们分别来自美国、奥地利、加拿大和以色列。遗憾的是,他们的成果介绍长达92 页,在这里无法介绍他们的获胜系统。网飞影片推荐系统的品质毋庸置疑,但无论包装如何精美,说到底还是一件十分普通的事,甚至早在电影工业初期就已经出现了:找几个跟你有相同趣味的人并让他们向你推荐一些电影。

这就是相关性的真谛。


编辑:田志鹏

北京大学社会学系

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
如果显著性大于0.05是不是就表明没有相关性了?
SPSS进行多个医学等级变量的Kandall和谐系数检验 ——【杏花开医学统计】
新年好,相关性分析了解一下?
一篇学会相关分析
如何通俗地理解协方差和相关系数?
什么样的医学数据可以使用spss中的Pearson相关性分析?(提升医学统计的思维逻辑)——【杏花开...
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服