文档介绍:1
论文题目鱼筮拯堡迦室塾援学科专业:主国尘数垦筮适宣塞堂!苤直堂堂院研究生:指导教师:研究方向:院怠⑺:151分类号10126学号::密级编号18一UDC.
2
菠妻蓿篿:’.≥::tjo⋯‘弧躷乒。_z;;一‘P;·二。53j·年:二一一≮.茁,≮*+-!{一一£,’·~
3
学位论文作者签名:幽指导教师签名:雏趁在学期间研究成果使用承诺书原创性声明1的成果。除文中已经注明引用的内容外,本论文不含任何其他个人或集体已经发表或撰写过的研究成果,也不包含未获得凼墓直盔堂及其他教育机构的学位或证本人声明:所呈交的学位论文,是本人在导师指导下,独立进行研究所取得书而使用过的材料。与我一同工作的同志对本研究所做的的任何贡献均已在论文中作了明确的说明并表示谢意。本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:内蒙古大学有权将学位论文的全部或部分内容保留并向国家有关机关、部门送交学位论文的复印件和磁盘,允许编入有关数据库进行检索,可以采用影印、缩印或其他复制手段保存、汇编学位论文。为保护学院和导师的知识产权,作者在学期间取得的研究成果属于内蒙古大学。作者今后使用涉及在学期间主要研究内容或研究成果,须征得内蒙古大学就读期间导师的同意;若用于发表论文,版权单位必须署名为内蒙古大学方可投稿或公开发表。期:5f8日
4
5
基于蒙古语影视剧语料库的话语标记研究摘要库构建密切相关的语料库设计、语料收集、语料的组织结构等问题进行了研究。蒙古语话语标记是处于句子之外表达程序意义,能对话语的理解起到引导作用的词、短语和习惯表达式。它们形式多样,功能复杂,从而影响句法分析的效果。因此,对蒙古语话语标记进行研究有着重要的理论意义和实践价值。本文主要研究的内容有:蒙古语话语标记的界定和分类蒙古语话语标记是一个复杂的语言现象,对它的界定和分类问题需要多层次、多角度的研究和分析。本文根据句法的可分离性、语义的程序性、功能的元语用性,总结出蒙古语话语标记的特征,把蒙古语话语;际记分为类,并对每一类话语标记的语用功能进行了说明。蒙古语影视剧语料库的构建如何构建蒙古语影视剧语料库直接影响到话语标记的研究价值,它反映了在其基础上开展的研究是否具有合理性和可靠性。在这方面,本文围绕与语料蒙古语影视剧语料库的设计方面介绍了建库的目的和思路;语料的收集方面,围绕语料的代表性和平衡性问题,对语料的分类和比例、分布和样本的选取、语料的流通度等进行了探讨;语料组织方面,对语料的存储格式、数据信息和软件工具进行了介绍。蒙古语话语标记的自动标注和实验分析本研究旨在提高句法分析的准确率以及为篇章分析提供连贯性显化信息,对蒙古语影视剧语料库中出现的话语标记进行语用功能的自动标注。本文在蒙古语话语标记语用功能分类基础上,制定了蒙古语话语标记自动识别规则,开发了蒙古语话语标记标注系统。第一,根据话语标记的形式特征,经过运算和推导获得话语标记的词法结构信息。第二,从语料库中人工筛选出话语标记,将它们存入基本词表,对其语用功能给出相应的代码,建立符合每一类话语标记特征的标注规则。第三,根据规则开发话语标记自动标注系统,对影视剧语料库中的话语标记进行自动标注。实验结果表明,该系统对万词级影视剧语料库进行标注后,召回率为.%,准确率为.%。存在的问题和解决方案就测试结果来看,召回率和准确率都不是很高,究其原因,主要有以下几
6
方面。第一,规则对兼类话语标记的识别率不高。第二,由于受语料内容、题材、规模等方面的限制,话语标记的出现频率影响了话语标记的召回率。第三,不符合语言事实的垃圾字串,影响话语标记的召回率。第四,蒙古语影视剧语料库的加工程度严重制约了蒙古语话语标记自动标注的准确率。针对上述问题,我们在后续工作中,准备从以下几方面对系统进行改进和完善。首先,扩充训练集的语料规模,使语料库更为贴近语言事实。其次,完善机器词典,增加信息含量。最后,在基于规则的算法上加入统计模型。综上所述,本文在话语标记相关理论和实践方面的研究成果上,以蒙古语影视剧语料库中的话语标记为研究对象,对蒙古语话语标记的界定和分类、蒙古语话语标记的自动标注和实验分析以及存在的问题和解决方案等问题进行了研究。全文共分为五章。第一章介绍了的相关理论和实践方面的研究成果,以及本研究的方法、意义以及创新点。第二章主要对蒙古语话语标记的涵义、存在动因和形成条件、蒙古语话语标记的语用功能分类体系等相关问题进行了探讨。第三章针对蒙古语影视剧语料库的设计、代表性和平衡性、语料库的组织结构等问题进行了研究。第四章在蒙古语话语标记语用功能分类基础上,开发了蒙古语话语标记标注系统并提取了实验数据。第五章对全文进行了概括总结后指出了本研究的不足,同时对今后的工作指明了方向。关键词:蒙古语话语标记;蒙古语影视