1 / 3
文档名称:

对pearson相关性的理解.docx

格式:docx   大小:50KB   页数:3页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

对pearson相关性的理解.docx

上传人:mazhuangzi1 2022/6/17 文件大小:50 KB

下载得到文件列表

对pearson相关性的理解.docx

相关文档

文档介绍

文档介绍:Pearson 相关系数
Pearson 相关系数介绍
pearson是一个介于-1和1之间的值,用来描述两组线性的数据一同变化移动的 趋势。
当两个变量的线性关系增强时,相关系数趋于1或-1;当一个变量增大,另一 个变量也增大时,表Pearson 相关系数
Pearson 相关系数介绍
pearson是一个介于-1和1之间的值,用来描述两组线性的数据一同变化移动的 趋势。
当两个变量的线性关系增强时,相关系数趋于1或-1;当一个变量增大,另一 个变量也增大时,表明它们之间是正相关的,相关系数大于0;如果一个变量 增大,另一个变量却减小,表明它们之间是负相关的,相关系数小于0;如果 相关系数等于 0,表明它们之间不存在线性相关关系。
用数学公式表示,皮尔森相关系数等于两个变量的协方差除于两个变量的标准 差。
吃拆-£忑迟F
协方差(Covariance):在概率论和统计学中用于衡量两个变量的总体误差。如 果两个变量的变化趋于一致,也就是说如果其中一个大于自身的期望值,另一 个也大于自身的期望值,那么两个变量之间的协方差就是正值;如果两个变量 的变化趋势相反,则协方差为负值。
其中u表示X的期望E(X), v表示Y的期望E(Y)
由于pearson描述的是两组数据变化移动的趋势,所以在基于user-based的协同 过滤系统中,经常使用。描述用户购买或评分变化的趋势,若趋势相近则 pearson系数趋近于1,也就是我们认为相似的用户。
Pearson 相关系数的缺陷
直观的可以看出, pearson 不适用于文本的相似性分析。
pearson存在以下3个问题:以下图的数据作为测试用例
Item 101
Item 102
Item 103
User 1



User 2



User 3

User 4


User 5



T— E_ 1 _ Hh

上表中,行表示用户(1〜5)对项目(101〜103)的一些评分值。直观来 看, User1 和 User5 用 3 个共同的评分项,并且给出的评分趋势相 同,User1与User4只有2个相同评分项,虽然他们的趋势也相似,但是由于 102的未知,可能是User2对102未发生行为,或者对102很讨厌,所以我们更 希望 User1 和 User5 更相似,但结果是 User1 与 User4 有着更高的结果。
可以看出 pearson 系数只会对重叠的记录进行计算。
同样的场景在现实生活中也经常发生,比如两个用户共同观看了 200部电 影,虽然不一定给出相同或完全相近的评分,但只要他们之间的趋势相似也应 该比另一位只观看了 2部相同电影的相似度高!但事实并不如此,如果对这两 部电影,两个用户给出的相似度相同或很相近,通过Pearson相关性计