文档介绍：余弦-距离算法区分微博用户行为偏好的统计检验与影响力分析
复旦大学任毅、郭磊、郁文
Contents
摘要 2
关键词: 余弦距离聚类分析 Logistic回归数据降维 2
1 引言 3
新浪微博简介 3
4
相关文献综述 5
2 数据收集与余弦-距离算法 7
7
-距离算法 8
3 统计检验与影响力建模 12
12
Kruskal-Wallis秩和检验 12
系统聚类与动态聚类分析 13
15
-距离算法降维效果比较 16
4 总结 20
参考文献 22
余弦-距离算法区分微博用户行为偏好的统计检验与影响力分析
摘要
Micro blog,微博作为一种新的社交媒体,正不断改变着21世纪人们获得并分享信息的方式。依靠将现实世界的人际关系复制于网络微博,仰赖现实关系的稳定性来增强微博信息的可靠性,通过人际关系获得信息将成为这个世纪的主流。那么究竟符合何种特征的微博用户能在自己的社交网络中拥有较强的影响力呢?本研究围绕着建立微博用户影响力模型的初衷,以微博用户的粉丝对该用户微博信息进行的评论与转发的频率作为用户对粉丝的影响力指标,试图从微博用户与其粉丝行为偏好的相似性来解释用户对粉丝的影响力形成。本研究的数据收集利用了新浪微博公开的API预设函数,通过Java语言开发包收集了以目标用户为中心,利用新浪微博平台曾广泛邀请并认证名人用户的特点,聚焦于微博用户实际交互的粉丝圈,计算了用户与粉丝圈的名人好友成分向量,并且原创了余弦-距离算法,来压缩高维的成分向量,实现数据降维,先利用统计的多元T2统计量、非参数Kruskal-Wallis检验以及系统、动态聚类分析验证了算法区分用户行为偏好相似度的准确性,再通过将粉丝是否转发或者评论作为Logistic回归的因变量,利用算法得到的余弦值和向量顶点距离作为解释变量,较为成功地拟合了Logistic回归模型,证明余弦-距离算法能够作为微博用户影响力的定量解释,并且算法的结果可以讨论用户行为偏好的相似性。研究者将主成分分析的降维效果与余弦-距离算法比较,发现从建模角度降维效果类似,而且余弦-距离算法有更方便解释的优点。利用该算法判断用户与粉丝行为的相似度,比起同类可以计算用户行为偏好的LDA主题模型节省了语义库的收集成本,具有较好的理论价值和实用性。通过余弦-距离算法得到微博用户行为的相似性,将有助于发掘真正有影响力的微博用户来推广信息,同时为开发根据用户兴趣来进行微博信息精准过滤的应用提供了方法论。
关键词: 余弦距离聚类分析 Logistic回归数据降维
1 引言
新浪微博简介
一种传播媒介要普及到5000万人,广播用了38年,电视用了13年,互联网用了4年,Micro blog这种社交媒体用了14个月。
有人在平台上做过调研,如果美国人突袭本拉登时,如果本拉登登录Micro blog,就可能看到巴基斯坦地区的热门信息:今日伊斯兰堡上空出现许多不明战斗机,而幸免遇难。
Micro blog,中文译作微博,即微型博客的简称,是一个基于用户关系的信息分享、传播以及获取平台,用户可以通过Web、Wap以及各种客户端组件个人社区,以140字左右的文字更新信息,并实现即时分享。
最早也是最著名的微博是美国的twitter,根据相关公开数据,截至2010年1月份,该产品在全球已经拥有7500万注册用户。2009年8月份中国最大的门户网站新浪网推出“新浪微博”内测版,成为门户网站中第一家提供微博服务的网站,微博正式进入中文上网主流人群视野。本研究的研究平台就是以新浪微博用户为总体来进行。
区别台twitter,新浪微博由于推广的需要,首先邀请了明星和名人加入开设微型博客,并对他们进行实名认证,认证后的用户在用户名后会加上一个字母“V”,以示与普通用户的区别,同时也可避免冒充名人微博的行为,但名人微博的功能和普通用户是相同的。公众名人用户众多是新浪微博的一大特色,目前基本已经覆盖大部分知名文体明星、企业高管、媒体人士。一旦普通人注册了新浪微博帐号之后,新浪微博会按照官方给出的名人类别,向用户推荐一批名人好友,来增加用户使用新浪微博的兴趣,普通用户也可以在阅读到名人所发的微博后,自己主动加名人好友,以示“关注”。
用户可以通过网页、WAP页面和手机短信、彩信发布140字以内的消息或上传图片,此外还可通过API(应用程序接口,)用第三方软件或插件发布信息。于2009年8月14日开始内测。截至2010年10月底,新浪微博用户数已达5000