文档介绍:独创性声明本人声明, 所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知, 除了文中特别加以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写过的研究成果, 也不包含为获得武汉理工大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。签名: 日期: 学位论文使用授权书本人完全了解武汉理工大学有关保留、使用学位论文的规定,即学校有权保留并向国家有关部门或机构送交论文的复印件和电子版, 允许论文被查阅和借阅。本人授权武汉理工大学可以将本学位论文的全部内容编入有关数据库进行检索, 可以采用影印、缩印或其他复制手段保存或汇编本学位论文。同时授权经武汉理工大学认可的国家有关机构或论文数据库使用或收录本学位论文, 并向社会公众提供信息服务。(保密的论文在解密后应遵守此规定) 研究生(签名): 导师(签名): 日期: 万方数据 I 摘要微博,即微博客( MicroBlog )的简称,是一个基于用户关系的信息分享、传播以及获取的平台。用户可以通过 WEB 、WAP 以及各种客户端组件个人社区, 以140 字左右的文字更新信息,并实现即时分享。微博比传统的社交网络具有更强的信息传播能力和用户粘性,这一独特优势使其迅速成为当前主要社会媒体之一。同时微博作为一种非常重要的消息来源与传播途径,在越来越多的社会事件中起到关键作用。对微博数据的分析与研究已经成为目前的研究热点之一。本文以新浪微博数据作为研对象,主要对新浪微话题数据进行文本处理, 分析其媒体特征及其对传统搜索查询词推荐服务的优化,并讨论大数据环境下处理效率的问题。本文的主要工作包括以下四个方面: 1 )针对新浪微话题数据的抽取,我们采用了基于 Html 页面解析的方式来获取数据,解决新浪 API 数据获取接口不完全开放,数据无法完整获取的问题;2)提出用户参与度和用户活跃度,话题热度和话题活跃度这四个指标,实现新浪微话题的媒体特征分析。并重点讨论了其话题特征,给出了话题演变的趋势图,并研究了基于 LDA 主题模型的微博语义抽取。数据统计结果表明微博文本的话题性强、时间性强。由于微博文本短小,直接采用 LDA 做潜在语义抽取的效果并不理想。3)针对微博文本大数据处理这一块,我们采用 Hadoop 框架下的 MapReduce 编程模型实现了关键字的倒排索引。除了能够根据查询词定位到某条微博,还原微博文本信息推荐给用户, 还探讨了不同数据大小以及不同节点的情况下,对微博数据处理所花费的时间的影响;4)提出基于微博话题的 Web 查询词推荐方法,更高效地帮助用户快速地表达他们的信息需求以及更准确地获取他们所需要的信息。目前大量实时热门的话题在短时间内大量涌现,而目前搜索系统的查询词一般依赖历史搜索记录,如何去有效地对历史记录里面没有或者少有的词给提供推荐服务将会变得比较困难。本文所提出的方法考虑到微博这种新型的网络社交媒体中的强话题性和快速性,充分利用微话题下的评论信息去挖掘潜在的推荐,从而给出了 Web 新鲜方面的查询词推荐。关键字: 微博,话题演变, Hadoop ,大数据,查询词推荐万方数据 II Abstract Microblog ging isa user relationship platform for information sharing, dissemination, munication . User can , through WEB 、 WAP and various ponents for munities, update and share information by about 140 words immediatel y. In addition ,m icro b log ging has a stronger information dissemination capacity and members clustering than traditional work s. This unique advantage makes it quickly e one of the main social media. Meanwhile, asa very important source of information munication channels, it plays a key role ina growing number of social events. To analysis and research for microblog data has e one of the current research hot topics . We use