文档介绍:中文语义倾向识别的关键算法研究要摘中文语义倾向识别是指识别某一特定主题的中文文本所具有的主观态度倾向性,判定文本对于该特定主题是持有肯定态度或是否定态度,它属于中文自然语言处理的范畴,是基于全信息的自然语言理解的重要研究领域。本文基于词汇本身的语义倾向信息,提出了一种基于词汇的语义倾向向量空间模型表示算法惴。该算法综合利用文本的语法、语义、语用三个层次;结合了基于统计和规则的方法;在一定程度上融合了一般领域与特定领域的信息。该算法可以用于传统机器学习算法的预处理模块,产生对文本进行全信息向量空间模型表示的输入。实验表明,与多种基于向量空间模型的机器学习方法和非向量空间模型的统计测度方法相比,该算法更加能够对文本的语义乃至语用层次的信息加以表达,能很好地处理网络中噪声较大的文本,具有良好的鲁棒性,在处理不同领域、文本差异较大的语料时也能够保持相对较好的性能,ê蚐算法时分别达到.%和.%的性能。本课题为中文文本的语义倾向识别提供了一个新的行之有效的方法。关键词:自然语言处理语义倾向识别向量空间模型
知识水坝***@pologoogle为您整理
瑆冬门魿篍壬至刁瞄汀王瑃甋,;;.
知识水坝***@pologoogle为您整理
瓵琲瑀甒篘琽瓵.%,,,,..
本人签名:拙旦目日期:至翌堡垒圣目圣墨旦日期:型ɡ葜聊砍视愕露二生二立本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任保密论文注释:本学位论文属于保密在—年解密后适用本授权书。非保密论独创性虼葱滦声明何贡献均已在论文中作了明确的说明并表示了谢意。申请学位论文与资料若有不实之处,本人承担一切相关责任。关于论文使用授权的说明学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存、汇编学位论文。C艿难宦畚脑诮饷芎笞袷卮斯娑文注释:本学位论文不属于保密范围,适用本授权书。本人签名:导师签名:日期:
第一章概述引言中文语义倾向识别是指识别某一特定主题酶中文文本新具有的主观态度倾向性,判定文本对于该特定主题是持有肯定态度或是否定态度,它属于中文自然语言处理的范畴,是基于全信息的自然语言理解的重要研究领域。随着计算机技术和互联阙技术的快速发展,网络不断膨胀并产生了巨大的信息资源。而面对如此浩瀚的网络信息资源,如何通过有效的手段来对信息进行有效的查询和获取,是提高人们学习和工作效率的关键问题,这也是目前计算桃领域研究的热点问题。一、应用背景チm缬τ:一方面,随着互联网的发展以及的嬲现,越来越多的人获褥信息的途径在发生着变化。网络的个体既是信息的消费者,同时也是信息的发布者、修。这点,院如产晶评论、个入博客、网络新闻组、影评、书评、音乐评论等等。在实际中,对于这些具有作者观点性的信息,人们会根据各自所关注的问题在上进行搜索,通过收集并阅读这些大量的相关介绍、评论等资料,从磊也逐渐形成自己的观点。这是一个通过吸收别人观点来形成自己观点的过程。但是,由于现在的网络资源过于庞大,在需要这些观点信息的时候,,这就导致了所谓的“长尾效应也就意味着网络上汇集的个人观点将越来越多,逐渐成为绝大多数人获取信息的重要途径。讴是网络个体不断增长的参与性使喜诵矶嗨堑母鋈斯工来进行搜索、阅读、理解这些观点的工作将变得十分费时费力。对于个人来说,北京邮电大学硕士学位论文中文语义倾向识别的关键算法研究の残вΓ涸醋杂《又咀鼙嗉瑿⒗镂ぐ驳律予年露提出的一个“长尾纛论”先赂拍睿χ诙嗵曷绺鎏宓牧α刻峁┝嘶チ3北4蠖嗍谌荨一
通过自己来获得对菜一事物或者某一事件等的认识的能力也是十分有限的。所以,这就迫切需要有一套能够自动搜索、阅读、理解观点的系统代替人工来完成这一系列的任务。然而,尽管墨前的计算机已经有了很快的处理速度,但是其对于信息内容的处理还停留在十分初级的阶段。如何使计算机具有人类的理解能力或者说具有一部分人类的理解能力,也还是一项比较困难的任务,这正是一个需二、理论背景畔⒗砺:另一方面,语言文字是承载和传播信息的主要载体,现在以文字为主体的形式多样的数字化媒体信息已经深入到人们工作和生活中的各个领域。但是,对于这些出入类自然语言组成的信息,怎么样让祝器能够处理并理解这些信息,仍然的产生【俊N颐侵5溃白匀挥镅源怼钡闹屑淠