打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
基于物品的协同过滤中,余弦相似度、皮尔森系数、修正余弦相似度三者的区别

源链接: http://blog.csdn.net/qq_23942803/article/details/50597907

假设数据如下图,其中行表示用户,列表示评级项目:


我们先看一下三道公式

余弦相似度(Cosine-based Similarity):


皮尔森系数(Pearson correlation):


修正余弦相似度(Adjusted Cosine Similarity):


其中Ru,i表示用户u给物品i的评级


1.余弦相似度与其余二者的比较

    余弦相似度计算时采用评级项目item i与item j中所有用户的信息,即包括有填写评级与无填写评级(无填写评级的置0)的所有用户;

    皮尔森系数与修正余弦相似度中U表示所有对i和j共同进行过评级的用户组成的组合;

    总结:余弦相似度与其余二者在计算式选择的用户集合不同 。


2.皮尔森系数与修正余弦相似度的比较

   从公式上看,这二者的区别就在于

之间的差别。

    皮尔森系数中

表示对i与j共同评级过的所有用户,他们对i的评级的平均值,即计算皮尔森系数时提取一个列为i与j,行为对二者共同评级的用户组成的表格,并计算列i的平均值。

     而修正余弦相似度中

表示的是用户u已评级项目的平均值,即计算时未被评级的项目不采取置0而是直接忽略。

     总结:皮尔森系数与修正余弦相似度之间的区别在于中心化的方式不同。


参考文章:

1.http://www.zhihu.com/question/21824291

2.http://www10.org/cdrom/papers/519/node11.html

3.http://guidetodatamining.com/assets/guideChapters/DataMining-ch3.pdf

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
如何使用SPSS进行皮尔森相关系数分析??
python数据分析之股票实战
数据挖掘工程师笔试及答案整理
MA、EMA、SMA的区别
大数据与推荐系统
相关性检验
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服