文档介绍:分类号学号 M200971622
学校代码 10487 密级
硕士学位论文
微博兴趣识别与推送系统的研究与实
现
学位申请人: 方维
学科专业: 通信与信息系统
指导教师: 谭运猛副教授
答辩日期: 2012 年 1 月 4 日
A Thesis Submitted in Partial Fulfillment of the Requirements
for the Degree of Master of Engineering
Research and Implement of Micro-blog Interest Found and Pushing
System
Candidate: Fang Wei
Major: Communication & Information System
Supervisor: Associate Professor Tan Yunmeng
Huazhong University of Science & Technology
Wuhan, 430074,
January, 2012
独创性声明
本人声明所呈交的学位论文是我个人在导师的指导下进行的研究工作及取得的
研究成果。尽我所知,除文中已标明引用的内容外,本论文不包含任何其他人或集
体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在文
中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。
学位论文作者签名:
日期: 年月日
学位论文版权使用授权书
本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权
保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。
本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检
索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。
保密□,在______年解密后适用本授权数。
本论文属于
不保密□。
(请在以上方框内打“√”)
学位论文作者签名: 指导教师签名:
日期: 年月日日期: 年月日
华中科技大学硕士学位论文
摘要
微型博客作为 时代互联网最广泛的应用之一,具有分散性、多样性、时
效性和信息量庞大等特点。为了从大量的、分散的信息中,获取用户感兴趣的话题
及相关信息,并实时推送给用户,本文针对中文微博,进行了用户兴趣识别和自动
推送系统的研究和实现工作。
本文在分析主流中文微博的信息特点和用户行为特点的基础上,结合国内外兴趣
识别和微博交互的相关技术,重点研究了适合针对中文微博系统的信息采集、中文
分词、兴趣识别和自动推送技术。本文的主要工作如下:
在分析微博信息发布特点的基础上,提出了基于 JAVA 的任务调度技术,调用相
关接口对微波信息进行采集;通过对国内外中文分词系统性能的研究,采用一种基
于层叠隐形马尔科夫模型的中文分词系统与用户自定义词典相结合的分词方案,实
现中文分词,同时,对分词结果进行停用词处理,以降低信息冗余度;通过对微博
用户行为的分析,提出了文本分类和主题库词匹配相结合的策略,对用户兴趣进行
识别;针对微博的时效性特点,采用监听器技术实现对微博信息的实时推送。
本文以新浪微博为应用背景,对微博兴趣识别的结果进行详细分析。实验结果表
明,论文提出的方案具有较高的准确性,能够较好地判断微博用户兴趣倾向,具有
一定的工程应用价值。
关键字:文本分类主题库兴趣识别中文分词微博推送
I
华中科技大学硕士学位论文
ABSTRACT
As one of the most widely used applications in era, micro-blog has the
characteristics of dispersion, diversity, timeliness, and the huge amount of information and
so on. In order to get the user's interest from large, distributed information, and to push it
to users in real time, this paper has done some research