文档介绍:基于词汇语义色彩分析的文本倾向识别摘要文本倾向是指文本中所表达的对所描述主题的态度,从语言学上来看属于语用信息的范畴,涉及作者的主观意图,如何让计算机能进行自动识别是计算语言学的一个重要课题,高性能的自动识别系统对于网络舆情监控等重要现实应用具有重要价值。本文主要进行了两个方面的研究工作。其一,设计了一个基于全信息的自动文本倾向识别系统。该系统从语法,语义,语用三个层次出发,去进行文本中的信息标注与抽取。最后将这些标注信息作为文本特征逐一添加到一个谋痉掷嗥中去,进行文本分类计算,实验证明,当我们将语法、语义和语用三层信息综合利用之时,系统性能是最好的。其二,作者在上述实验过程中发现,通常作为语用信息使用的词汇语义倾向度量值缺乏合适的解释性与验证方法。为此,本文引入聚类算法,对词汇语义倾向度量值进行聚类,并将聚类结果重新作用于原始的文本倾向识别系统中去,实验表明,系统文本倾向识别率得到了提高。这一方面为词汇语义倾向度量提供了一个有效解释的途径,同时也为系统的改进提出了一种新思路。论文最后是结论和对未来进一步工作的展望。。
知识水坝***@pologoogle为您整理
疭㈨.,瑆痵甌..,瑃痮簊,甀.,甀北京邮电大学硕貉宦畚’Ⅲ
知识水坝***@pologoogle为您整理
琽.,.痵甇,琲.,北京邮电大学硕十学位论文Ⅳ
日期:旦蟹:耻邋:褐劣墨查申请学位论文与资料若有不实之处,本人承担一切相关责任。保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论独创性虼葱滦声明本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。本人签名:日期:关于论文使用授权的说明学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存、汇编学位论文。C艿难宦畚脑诮饷芎笞袷卮斯娑文注释:本学位论文不属于保密范围,适用本授权书。导师签名:期:望盟:王:至
第一章绪论论文背景务的意见、交流对各种事件的看法,互联网已不仅仅是人们获取信息的仓库,更统计出相关类别中词语的出现频度或概率,然后根据目标文本中相关词语的频度信息判别出其类别。运用这些方法时,通常我们都有一个潜在的假设前提,即文本类别取决于词语出现概率的分布,同时也假设文本中词语间是相互独立的。但是对情感型文本而言,某些词语虽然出现的概率很大,但其有可能并不具有表达信息的形式因素、含义因素和效用因素的信息理论,称为“⒄梗嚼丛蕉嗟厝送üチM⒈硭嵌陨唐贩成为人们发表观点、交流看法的园地。人们对某样事物进行评论或者表达自己的观点的时候,常常是具有倾向性的,这种倾向性信息具有很重要的应用价值。例如,当人们要购买一件商品时,都希望能了解已经使用过该商品的人的倾向性意见作为参考,而作为商家,可以通过客户偏好的研究来确定产品的信誉度,以制订新的产品营销策略,提高企业收入А4油缧畔⒐芾淼慕嵌壤纯矗绻芾砣嗽笨梢匝杆僬莆胀缧畔⒌募值及目的,根据需要判断出是否为垃圾信息或违法信息,以便及时作出相应处理。当然,对于文本的倾向性识别作用还远远不仅于此,只要我们能够将文本中的信息利用起来,相信其价值是不可限量的。显然,由于网络信息的巨大以及分布性,靠人工来逐篇判断文档的语义倾向性显然是不可取的。因此,如何自动地对文档进行语义倾向性判断也就成了一个十分引人注目的重要的研究方向一般情况下,倾向性可以分为正向的辞阆蚩隙ǖ和负面的辞阆蚍穸的蚨阆蛐允侗鹨部梢钥闯梢桓龇掷喾痔濉<窗岩桓銎缆畚谋痉治>哂正或负倾向的文本。这样就可以利用文本分类工具进行倾向性识别。目前大多数的文本分类工具都是基于词语间的相似度或文档中的词频数进行分析的,比如和方法。这些方法通过对训练文本的训练,任何倾向信息的能力,与倾向类别根本无关【。本文认为,从信息中提炼知识和利用知识求解复杂问题,不仅需要利用信息的形式因素,而且要深入利用信息的含义和效用因素。我们把这种需要同时考虑北京邮电人学硕上学位论文
研究现状及分析信息【。人们在获取信息的时候,不能只考查信息的形式因素锓ㄐ畔和和信息的内容镆逍畔,还必须考查信息的价值镉眯畔。现在流行的自略了语用信息的作用与意义,