1 / 69
文档名称:

基于中文微博的情感分析研究.pdf

格式:pdf   页数:69页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于中文微博的情感分析研究.pdf

上传人:wh7422 2015/10/29 文件大小:0 KB

下载得到文件列表

基于中文微博的情感分析研究.pdf

相关文档

文档介绍

文档介绍:A Thesis Submitted in Full Fulfillment of the Requirements
for the Degree of Master of Engineering




Research on Sentiment Analysis for Chinese
Microblog


Candidate: Xu Shuai
Major : Computer Application Technology
Supervisor: . Wen Kunmei




Huazhong University of Science and Technology
Wuhan, Hubei 430074, P. R. China
January, 2013
独创性声明

本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研
究成果。尽我所知,除文中已经标明引用的内容外,本论文不包含任何其他个人或
集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在
文中以明确方式标明。本人完全意识到,本声明的法律结果由本人承担。

学位论文作者签名:
日期: 年月日



学位论文版权使用授权书

本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权
保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。
本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检
索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。

保密□,在_____年解密后适用本授权书。
本论文属于
不保密□。
(请在以上方框内打“√”)

学位论文作者签名: 指导教师签名:

日期: 年月日日期: 年月日
华中科技大学硕士学位论文
摘要
微博即微博客,日益成为当今最炙手可热的互联网应用。据统计,平均每天产
生的微博数量高达 1 亿条,在这海量的数据中不仅包含着对客观性事实的描述信息,
同时还蕴含着大量微博用户的情感状态、观点看法等主观性信息。而这些主观性信
息不仅有助于用户决定是否去购买某个产品,而且对于商家制定产品营销策略也具
有重要的参考价值,甚至在舆情监控领域也为政府部门提供了有效的数据来源。
基于此,针对中文微博设计了基于句法依存关系和文本分类技术相结合的微博
情感分析方法。该方法利用句法依存关系初步判断出微博评论的情感倾向性,同时
计算出结果的置信度,选择置信度高于特定阈值的结果作为训练样本,并结合微博
内容特征集和微博媒体特征集训练得到一个两步情感分类器,该分类器第一步对微
博进行主客观识别,第二步则对主观性微博再次进行情感极性分类。另外,在训练
集的选择上,利用微博中常用的表情符号来自动标注训练样本,并实现了一个自增
式的学****策略来解决微博实时情感分析问题。
实验表明,相比仅利用句法依存关系的方法,该方法在正确率和召回率上分别
提高了 6%和 3%。特征的选择方面,微博内容特征集和微博媒体特征集均优于一元
文法特征的分类效果,其中主客观分类的正确率和召回率均可达 88%,情感极性分
类则分别为 %和 %,尤其是基于微博媒体特征集的情感分类方法更适合解决
微博实时情感分析问题。

关键词:中文微博,情感分析,句法依存关系,文本分类

I
华中科技大学硕士学位论文
Abstract
Microblog is ing a most popular application. According to the statis-
tics, more than 100 million tweets publiched in everyday. These tweets not only convey
the description of facts, but also contain the emotional states of massive microblog users.
And these emotional informations may be help for user to decide whether buy a product,
provide very important reference value panies to make market strategy, and even
make massive data available