文档介绍:学校代号:
学号:
密级:
湖南大学工程硕士学位论文
基于教ǖ奈⒉┫低
研究与应用
差雀竭丑盖厶墼纽王丞蠢
昱』剐屠茧W槭豢於檑诱纪世童直级王猩』
埴二盖纾偬迷
童—』
遣堑龟封生垒旦
途堑堑鼬№生鱼旦俊!
釜蛊隍塾基叁主赴自蠢强数援——
瓻.
基于教ǖ奈⒉┫低逞芯坑胗τ
摘要
微博中圈子很重要,在圈子中,大家对彼此的关注度强于圈子外,产生的话
题相关性也比圈子外高。圈子的构建技术与个性化推荐息息相关。个性化推荐的
友好程度决定了用户对微博的直接体验。个性化推荐中采用得最广泛的方法是聚
类分析。然而传统的长文本聚类算法未能考虑微博数据稀疏性的特点,普通的短
文本聚类算法又未能结合微博数据自身的特点。
针对微博数据的特点,本文提出了一种微博向量构建方法,该方法考虑微博
的话题与文本内容,采用向量空间模型,分别从话题和微博文本计算其相似度。
在计算微博文本相似度时对相似度计算公式进行了调整,当词语位于话题中时其
重要程度大幅提升。最后,对话题相似度和微博文本相似度进行归一化处理,得
到两条微博的相似度。
在相似度计算的基础一疚奶岢隽艘恢治⒉┚劾嗨惴ā8盟惴ɑ诒昵┐
汇发现技术,通过标签词汇,不断的将微博数据集划分为不同的簇,使得一个簇
包含标签词汇,另一个簇完全不包含标签词汇。反复运用迭代分割法,得到最终
的聚类结果。本文采用⒉┠谌萦锪峡庵械牟糠质荻訫惴ń
测试,以值为评估标准,与开源聚类工具包械钠渌劾嗨惴ń
行了对比分析,实验结果表明,算法的性能优于其他短文本聚类算法。
在上述工作的基础上,基于教ǎ捎肕劾嗨惴ㄉ杓坪褪迪至
一款简单的微博系统。软件在基于教ǖ母鞲霭姹镜哪D馄饕约癕
等真机上运行状况良好,推荐列表合适,证明了软件设计良好,同时也验证了
算法的合理性。
关键词:微博系统;个性化推荐;聚类分析;7
工程硕士学位论文
疭
琲瑆
瑃.
甈
.瑃
畉
, 猺.
,
,
琧瑀琭
甅
瑆
,
瓺
琣琹
,
, .
甀
,
琾
琫瑆
.
,
甋
瑃
,
基于教ǖ奈⒉┫低逞芯坑胗τ
簃; 籧;
工程硕士学位论文
目录
学位论文原创性声明和学位论文版权使用授权书⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯
摘要⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..
....................................................................................................................
插图索引⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一
附表索引⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯
第滦髀邸
本文研究背景⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..
国内外研究现状⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一
研究的主要内容⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..
本文结构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯
第翧平台及微博简单分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一
教ā
. 靖拍睢
. 低臣芄埂
. 教ǖ奶氐恪
微博⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯
.湫偷奈⒉
.⒉┑拇úヌ匦浴
.⒉┛秃诵囊灰桓鲂曰萍觥
小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯
第戮劾喾治鲈谖⒉┫低持械挠τ谩
聚类分析预处理⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯
.谋痉执省
.谋咎卣魈崛
常用的聚类方法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯
. 狹算法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯
. 算法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.
. 惴ā
微博聚类算法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯
.⒉┫嗨贫取
.劾啾曜肌
基于教ǖ奈⒉┫低逞芯坑胗τ
.劾嗪诵姆⑾帧
.⒉┚劾嗨惴∕
算法验证⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯
.惴ㄆ拦辣曜肌
.惴ú馐允菁
.惴ㄐ阅芏员取