1 / 60
文档名称:

现代维吾尔语常用词计量分析研究.pdf

格式:pdf   页数:60页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

现代维吾尔语常用词计量分析研究.pdf

上传人:pw4463 2016/2/15 文件大小:0 KB

下载得到文件列表

现代维吾尔语常用词计量分析研究.pdf

相关文档

文档介绍

文档介绍:新疆师范大学学位论文原创性声明本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。学位论文作者签名:日期:年月日关于论文使用授权的说明学位论文作者完全了解新疆师范大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属新疆师范大学。学校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存、汇编学位论文。(保密的学位论文在解密后遵守此规定)保密论文注释:本学位论文属于保密在年解密后适用本授权书。非保密论文注释:本学位论文不属于保密范围,适用本授权书。学位论文全文电子版同意提交后可在校园网上发布,供校内师生浏览。本人签名:日期:导师签名:日期:I中文摘要现代维吾尔语常用词计量研究是少数民族语言信息处理领域急需研究的重要课题。维吾尔语常用词汇表的欠缺,是影响维吾尔语词汇学、计算语言学和维吾尔语信息处理工作质量的重要因素,迫切需要研制具有代表性、可靠性、权威性的维吾尔语常用词汇表,促进维、哈、柯等阿尔泰语系的新疆少数民族自然语言理解跨越式发展。本文在国家自然科学基金资助项目(项目编号:61063036)和国家语委项目(项目编号:YB125-45)等项目的支持下,对现代维吾尔语常用词计量研究的基本理论、基本方法和关键技术进行了研究,构建了现代维吾尔语语料库,生成了各种语料处理应用系统,研制出现代维吾尔语常用词候选表。为确保收集语料的可靠性、代表性和权威性,本文重点对语料来源、语料范围、语料载体等进行了研究,以保证常用词候选表的权威性和代表性。本文研究了构建现代维吾尔语言语料库的关键技术与方法,特别是现代维吾尔语言语料库的构建,并对现代维吾尔语语料预处理技术,现代维吾尔语语料统计技术,现代维吾尔语词干提取技术,现代维吾尔语数据分析技术进行了研究;研制了现代维吾尔语常用词候选表,从词语的使用频度和词语的分布两方面对词语进行了基本考察,将维吾尔语词语的“词种数、频次、频率、文本数、词长”作为常用词候选表的依据。本文主要的创新点为以下两点:(1)在现有的语料库资源基础上,系统、持续地进行收集、整理、加工和处理现代维吾尔文平面媒体、教育教材媒体、有声媒体、网络媒体语料,构建现代维吾尔语语料库,相比之前的语料库,本语料库语料来源更广、语料领域更宽、各个领域比率控制适当。对构建现代维吾尔语言语料库的关键技术与方法进行进一步优化与完善,新增了人名识别和数据自动分析技术。(2)对词语使用频次及其词汇文本数进行基本考察,从词语的使用频度和词语在文本中出现的次数两方面加以考虑,提出了现代维吾尔语常用词候选表。本研究不但为维、哈、柯等阿尔泰语系的少数民族自然语言理解及处理工作提供了基础,也可为阿尔泰语系的少数民族语言的规范化、教材设计、中小学语文教育、扫盲教育、双语教育和辞书编纂提供服务。关键词:现代维吾尔语;语料库;常用词候选表;计量分析第II页共52 页AbstractModern mon wordsquantitative research is the important issues of minority language information processing urgently in needofstudying. Lack of Uyghur common words lexiconis important factor affecting the quality work of Uyghur lexicology, computational linguistics and information , there is an urgent need to develop a representative, reliability, authoritative mon lexicon topromote Xinjiang ethnic minority natural language understandingof Uyghur, Kazak, Kirgiz and other Altaic language the support ofthe National Natural Science Foundation of China (Project