文档介绍:硕士学位论文
面向微博用户的标签自动生成技术研究
RESEARCH ON AUTOMATIC
GENERATION OF TAGS FOR
MICROBLOG USERS
谢毓彬
哈尔滨工业大学
2012 年 6 月
国内图书分类号: 学校代码:10213
国际图书分类号: 密级:公开
工学硕士学位论文
面向微博用户的标签自动生成技术研究
硕士研究生: 谢毓彬
导师: 刘挺教授
申请学位: 工学硕士
学科: 计算机科学与技术
所在单位: 计算机科学与技术学院
答辩日期: 2012 年 6 月
授予学位单位: 哈尔滨工业大学
Classified Index:
:
Dissertation for the Master Degree in Engineering
RESEARCH ON AUTOMATIC
GENERATION OF TAGS FOR
MICROBLOG USERS
Candidate: Xie Yubin
Supervisor: Ting
Academic Degree Applied for: Master of Engineering
Speciality: Computer Science and Technology
Affiliation: School puter Science and
Technology
Date of Defence: June, 2012
Degree-Conferring-Institution: Harbin Institute of Technology
哈尔滨工业大学工学硕士学位论文
摘要
近年来,微博服务作为新型的互联网应用,受到了越来越多用户的关注。
在自然语言处理、信息检索和社会计算等相关领域,针对微博的研究工作也在
逐渐开展和积累中。微博用户标签,作为描述用户兴趣爱好、职业领域特征等
的载体,在用户组织和搜索,挖掘用户兴趣、实现微博上的个性化等方面有着
重要的作用。
本文着眼于基于微博内容的用户标签自动生成,借助对内容的分析,生成
能够体现用户兴趣的标签。
本文通过新浪微博 API 随机获取了百万级规模的标签相关数据,用于分
析用户标签在统计、语义等方面的特征。同时,我们对基于文本的标签源:用
户的原创、转发、评论和收藏微博的语义相似度及其对反映用户兴趣的贡献进
行了实验和分析,结果表明标签源间的语义相似度并不高;而转发微博更能体
现用户兴趣,评论最差,从而也确定了本文中生成标签的文本来源。
本文从生成标签的不同粒度出发,分别从基于关键词和基于类别的角度自
动生成微博用户标签。对生成结果的评价准则有两条:一是生成结果是否准确
体现了用户兴趣;二是生成结果是否适合作为用户标签。
在基于关键词的生成方法中,引入了基于 TextRank 的标签生成方法,通
过分析微博中词语的共现关系,构建词语网络,抽取较为重要的词用于标签生
成。为了使生成的标签能在更多的维度上体现用户兴趣,接着提出了基于聚类
分析的生成方法,从较重要的聚类簇中提取代表词用于标签生成。实验表明,
两种方法都优于我们的 baseline。同时,我们也对两种方法进行了讨论、对比
和分析。
在基于类别的生成方法中,将用户感兴趣的若干个类别作为其标签。首先
提出了基于短文本分类的标签生成方法,人工构建目标分类体系及微博训练语
料,识别出用户感兴趣的类别作为标签。随后,我们在更细的粒度上为用户打
标签:利用百度百科具有三层分类信息的词条资源,识别出用户关注的类别作
为标签。实验表明,两种方法生成标签的准确率均能达到 70%左右。同时,
我们也对这两种方法进行了讨论、对比和分析。
关键词:微博用户标签;TextRank;聚类分析;文本分类;百度百科
I
哈尔滨工业大学工学硕士学位论文
Abstract
In recent years, micro-blogging services have attracted more and more
attention as a new type of web applications. Research focused