文档介绍:分类号学号M201072551学校代码10487密级硕士学位论文基于中文微博的情感分析研究学位申请人:徐帅学科专业:计算机应用技术指导教师:文坤梅副教授答辩日期:2013年1月22日A Thesis Submitted in Full Fulfillment of the Requirementsfor the Degree of Master of EngineeringResearch on Sentiment Analysis for Chinese MicroblogCandidate:puter Application TechnologySupervisor: University of Science and TechnologyWuhan, Hubei 430074, P. R. ChinaJanuary, 2013独创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除文中已经标明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到,本声明的法律结果由本人承担。学位论文作者签名:日期:年月日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。保密□,在_____年解密后适用本授权书。不保密□。(请在以上方框内打“√”)学位论文作者签名:指导教师签名:日期:年月日日期:年月日本论文属于华中科技大学硕士学位论文I摘要微博即微博客,日益成为当今最炙手可热的互联网应用。据统计,平均每天产生的微博数量高达1亿条,在这海量的数据中不仅包含着对客观性事实的描述信息,同时还蕴含着大量微博用户的情感状态、观点看法等主观性信息。而这些主观性信息不仅有助于用户决定是否去购买某个产品,而且对于商家制定产品营销策略也具有重要的参考价值,甚至在舆情监控领域也为政府部门提供了有效的数据来源。基于此,针对中文微博设计了基于句法依存关系和文本分类技术相结合的微博情感分析方法。该方法利用句法依存关系初步判断出微博评论的情感倾向性,同时计算出结果的置信度,选择置信度高于特定阈值的结果作为训练样本,并结合微博内容特征集和微博媒体特征集训练得到一个两步情感分类器,该分类器第一步对微博进行主客观识别,第二步则对主观性微博再次进行情感极性分类。另外,在训练集的选择上,利用微博中常用的表情符号来自动标注训练样本,并实现了一个自增式的学习策略来解决微博实时情感分析问题。实验表明,相比仅利用句法依存关系的方法,该方法在正确率和召回率上分别提高了6%和3%。特征的选择方面,微博内容特征集和微博媒体特征集均优于一元文法特征的分类效果,其中主客观分类的正确率和召回率均可达88%,%%,尤其是基于微博媒体特征集的情感分类方法更适合解决微博实时情感分析问题。关键词:中文微博,情感分析,句法依存关系,文本分类华中科技大学硕士学位论文IIAbstractMicroblog ing amost popular application. According to the statis-tics,more than 100 million tweets publiched in tweets not only convey the description of facts, but also contain the emotional states of massive microblogusers. And these emotional informations may be help for user todecide whetherbuy a product, provide very important reference value panies to make market strategy, and even make massive data available for government to monitoring public opinion. In light of this, we proposed a sentiment analysis method based on bination of syntactic dependencies and t