文档介绍:基于高维稀疏数据聚类的协同过滤推荐算法
姚忠1, 魏佳,吴跃
(北京航空航天大学经济管理学院信息管理与信息系统系,北京 100083)
摘要针对协同过滤推荐算法面临数据高维稀疏特征时推荐效果较差的缺点,在现有高维稀疏数据聚类
研究的基础上,利用评分数据稀疏差异度和项目类别构造集合差异度度量公式,用以在用户-项目评分矩阵
上进行项目聚类。在此基础上进行项目相似性计算和最近邻居查询,然后对用户未评分的项目进行评分预
测,进而产生推荐。实验证明本文提出的基于稀疏差异度和项目类别的项目聚类算法及在此基础上的协同
过滤推荐结果优于传统的 K-means 聚类算法基础上的推荐效果。同全项目集协同过滤推荐相比较,在效率
和推荐精度上也表现出一定的优越性。
关键词推荐系统,协同过滤,项目聚类,项目类别评分, IBCRA
中图分类号 TP311
1 引言
推动了电子商务的飞速发展,网络作为一个全新的销售渠道、采购渠道和客户
渠道,越来越受到企业和消费者的重视。实施电子商务系统对企业的服务提出了诸多新要求,
包括商品质量的保证、送货及时性、商品选购舒适度、退货便利性等,其中最为突出的一个
问题就是商品选购的个性化推荐[1]。推荐系统(mender System)是解决信息过载的有
效手段,也是电子商务服务提供商提供个性化服务重要的信息工具。电子商务推荐系统是提
供“一对一”个性化服务的一种重要的信息技术,它利用电子商务网站向客户提供商品信息和
建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程[2]。推荐系统
和个性化推荐技术研究在国内外逐渐成为研究热点,并被广泛应用。Amazon、CDNOW、
eBay、Levis、Moviefinder、Reel 等众多国外知名电子商务网站,已经将推荐系统集成到运
营系统中[3]。国内 B2C 网站虽然在个性化和自动化推荐方面存在差距[4],但随着中国电子商
务的蓬勃发展,推荐系统的理论研究正逐步深入,国内网站的推荐策略较原先的分类浏览和
基于内容的检索等简单方式更加智能化,推荐技术逐步应用到网站中来。
相关文献
推荐系统包括个性化推荐系统和非个性化推荐系统[31]。非个性化推荐系统向所有用户
提供具有相同内容的推荐,如电子商务站点的畅销排行。个性化推荐系统则区分不同用户或
用户群,根据他们的偏好定制推荐[7]。非个性化推荐系统原理简单,易于操作,但没有考虑
到用户需求的差异性,推荐质量较差;个性化推荐系统算法和实现相对复杂,但推荐质量高。
当前电子商务推荐系统的研究基本上集中在个性化电子商务推荐系统的研究领域。
个性化电子商务推荐系统研究依赖用户在评分体系架构中的显式评分,并以此预测用户
未评分项目的评分。其中,个性化推荐中使用的推荐算法是通过用户对项目的评分以及附加
信息,对尚未评分项目进行评分预测,将评分最高的项目或项目组推荐给用户。推荐系统的
1 通信作者:姚忠,北航经管学院,副教授,博士,Email: ******@buaa..
个性化推荐服务,提高了客户对电子商务网站的忠诚度,为企业赢得了更多的发展机会[8]。
用户偏好信息的获取是推荐算法的前提。用户信息的获取主要是通过用户对给定信息
的评价,主要包括显式评价和隐式评价两类[9]。显示评价基于用户有意识地表达对项目的认
可程度,通常使用特定区间的整数值来表达用户的偏好程度,用户数据库中的信息随着用户
不断使用而随时更新;隐式评价不需要用户主动参与,推荐系统通过Agent、Web数据挖掘
等技术自动跟踪并分析用户浏览记录、购物记录等行为来获取信息。
当前,电子商务推荐系统的研究内容和研究方向主要包括推荐方法研究、实时性研究、
推荐质量研究、多种数据多种方法的集成、数据挖掘在推荐系统中的应用、用户隐私保护研
究等[10]。其中,推荐算法是电子商务推荐系统的核心,推荐系统其他研究内容绝大多数也
是以推荐算法为研究出发点。在推荐算法中,主要的研究方向包括协同过滤推荐、基于内容
的推荐、聚类技术、Bayesian 网络技术、关联规则技术、基于图的 Horting 图技术等[10]。本
文研究高维稀疏数据情况下的协同过滤推荐算法,因此下面主要介绍与此相关的研究。
协同过滤推荐算法是目前最受欢迎的推荐技术[4]。Tapestry 是最早提出的协同过滤推荐
系统,目标用户需要明确指出与自己行为比较类似的其它用户[2][12]。协同过滤推荐算法在用
户对项目做出评价的基础上,通过用户—项目评价矩阵发现用户的共同兴趣模式,预测用户
之间的相似度,从而为目标用户做出个性化的推荐。协同过滤推荐