文档介绍:探究微博中的情绪分析
摘 要:针对微博进行情绪分析就是对微博所表达的喜、哀、怒、惧、恶、惊六种情绪进行分析,对迅速了解大众情绪走向并且对于个人情绪调节有着重要的意义。本文对情绪分析的研究背景以及研究内容进行了阐述,重点探索了情绪分析的难点和基于情绪词典的情绪分析方法。为情绪分析的进一步研究奠定了基础。
关键词:微博,情绪分析,情绪词典
一、研究背景
微博作为一种即时通讯工具,其简便易用,具备非常好的实时性,中国已经进入全民微博时代。越来越多的互联网用户注册微博,他们通过微博自由地发表自己的观点及情感,如对名人的喜欢或憎恶、对电影的评论、对品牌的评价或建议、对社会热点的看法以及生活中的喜怒哀乐等。这些看似琐碎的信息其实蕴含着巨大的商业价值,如预测电影票房、挖掘产品意见、了解用户需求、开拓新市场等。除此之外,分析微博有助于进行舆情监控、问答系统的研究,还可以用来帮助心理专家检测用户心理状态。
二、本文的研究内容
微博文本数据规模庞大,给自然语言研究处理带来了新的机遇和挑战,吸引了大量语言研究工作者从事微博的研究工作。其中,尤其以含有情感的微博文本更吸引人们的注意,成为了挖掘工作的宝贵资源。同时,对微博进行文本分类研究可以帮助解决用户观点分析和情感挖掘。目前,情感分析任务大致分为两种:一种是主客观文本分类;另一种是主观文本的情感分析,即对带有情感色彩的文本进行自动分析并预测其情感极性。情感分析任务根据不同应用分为两个领域:评价分析和情绪分析,前者侧重于产品性能评价,后者侧重于人的心理感受。本文主要进行中文微博的情绪分析,从以下方面进行研究:分析微博表达特点,探索微博中的情绪分析方法。
三、情绪分析的难点
(一)微博文本有三个最显著的特点:一、简短,只包含140个字符。二、含有丰富的表情符。三、语言表达口语化。这三个特点给微博情绪分析带来了新的挑战。中文微博至多可以输入140个中文字符,一般包含一个到三个中文句子。一个句子中包含的情感信息较少,很难挖掘;反讽句子,难以判断情绪类别。多个句子表达的感情相互独立、不一致,情绪挖掘意见难以统一。微博非结构化口语表达中混入了很多的谐音字,如“V5”等同于“威武”;英文缩略词,如“OMG”是“Oh, My God!”的缩写;网络用语频出,如“又挂科了,累觉不爱啊!”;表达口语化,难以分辨情绪,如“自然卷留毛线头发啊!!!”
(二)由于中文表达的多样性,在对其进行情绪分析时面临诸多困难:
a)同一个中文词语在不同语境中能表达不同的情感倾向。如“骄傲的人永远以自我为中心。”和“我为你骄傲,中国!”两句中的“骄傲”,前者表现了厌恶的情绪,后者则传达了喜爱的情绪。
b)不同词性下,词语的情感色彩不一致。如“好”作为副词不表达情感,但是作为形容词则传递了正面情绪。
c)本身不带有情感的词,被寓以特定情感。如“马圈里的那匹黑马今年三岁了。”和“斯诺克国锦赛年仅16岁的小将赵心童黑马成色不减以6:1淘汰世锦赛亚军霍金斯。”中的“黑马”,该词本身并没有任何情感倾向,但常常被使用来形容初出茅庐却取得优异成绩的人或物,具有积极正面的情感。