1 / 56
文档名称:

网络聊天机器人在少数民族汉语教学中的关键技术研究.pdf

格式:pdf   页数:56
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

网络聊天机器人在少数民族汉语教学中的关键技术研究.pdf

上传人:qujim2013 2013/7/1 文件大小:0 KB

下载得到文件列表

网络聊天机器人在少数民族汉语教学中的关键技术研究.pdf

文档介绍

文档介绍:摘要学上的应用系统,并围绕着网络聊天机器人的关键技术——自然语言理最短路径算法的改进方法——次短路径算法,这种方法避免了存在多条网络聊天机器人作为一款供人类生活学习的工具近年来备受关注,其技术也随着信息处理水平的提高而日渐成熟。目前活跃在网上的“小机器人的聊天、学习的功能,本文设计并研究其在少数民族地区汉语教材第五、六册篇课文,建立了一个小规模的汉语语料库。语料库的工快速、高效的特点,但不能很好的处理多条最短路径的问题,提出了对魅薾梢运媸辈檠恍┲钊缣炱榭鲋嗟谋阌谌嗣侨粘I的知识,可以陪用户聊天、学习语言,供用户娱乐休闲。介于网络聊天解进行深入研究。本文对网络聊天机器人的技术研究是从汉语分词开始的。由于汉语本身的语言特点,词与词之间不能用空格之类的显性标志分开,所以汉语分词就成了汉语自然语言处理的“瓶颈”眩=饩龊弥形姆执示龆ㄗ网络聊天机器人系统的性能好坏。所以本文研究的主要内容、关键技术及创新点主要有以下几点:一、本文采用统计自然语言处理方法,收集了少数民族汉语初中教作包括断词断句处理、词性标注及统计分析等。词性标注均严格按照《汉语词典》里的词做标注。这项工作是一项长期而繁重的工作,需要大量的手工劳动去完成。所建的语料库为后续的工作做了数据上的支持。二、汉语存在歧义和未登录词等问题,所以歧义消解和未登录词识别是汉语分词关键问题。本文从最短路径算法解决歧义和未登录词具有最短路径时不能判断最优解的问题,同时又延续了最短路径算法的特性。实验证明,次短路径算法对汉语分词的歧义效果和未登录词的识别有很
大的改善作用。这是本文的贡献之一。三、本文分析了如何在中文分词中建立隐马尔可夫模型慕构和参数训练等问题,并用实句网格图详细的说明了P椭械牡诙个解码问题的算法一维特比算法的过程,这样做的一个优势在于能够清逻辑结构的前提下,只改变算法的存储结构,如利用数组存储复杂的图这一方法在程序设计课程上可以应用于许多优秀的经典算法。这是本文楚地看到待切分的句子按维特比思想寻找最佳的阶段切分词,然后递归回溯找到最佳的词性序列,完成分词过程。目前这一问题的理论思想成熟,但现有的文献对其:分词的实践细节描述的很匮乏,使得本文的这项工作可作为新进入的研究人员作为参考学习。这是本文的贡献之二。四、结合次短路径搜索出来的路径,在已训练好的P拖拢过仿真实验验证维特比分词算法,找到有效的分词结果。文中给出了与一般隐马尔可夫模型的:分词比较。实验结果表明,结合次短路径算法的隐马尔可夫分词算法在一定条件下提高了隐马尔可夫算法的效率,同时也提高了分词的召回率和准确率。这是本文的贡献之三。五、本文的工作都是结合编程实践展开的。编程思想借助本文作者发表的一篇论文。该论:艾详细论述了一种避免设计复杂程序的新方法。这种方法的思想是基于算法的逻辑结构独立于存储结构,在不改变算法结构来设计并实现图的深度优先算法。在这之前查到的:丈献都是基于图结构的存储方式,如邻接表等。这一方法使得很多程序都变得简单了。本文源于这一思想,将其应用于维特比算法上,只改变算法的输入输出接口,而不改变维特比算法的逻辑结构,就可以找到合适的词性序列。的贡献之四。关键字网络聊天机器人,自然语言处理,语料库,隐马尔可夫,维特比
..琧,琣,琒/—痵,甀.‘‘痑,.猲—.甋:甌.—.
甀疭,瑃,甌,;,.’,.’’..’甌甀瑂甮.
,猣瓸,.,甌琽琤’,瑂猳.
目录第一章绪论....⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⋯⋯⋯⋯..选题背景及其意义⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..网络聊天机器人概述⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⋯⋯⋯⋯.⋯⋯⋯.⋯⋯.⋯⋯⋯..国内研究状况⋯⋯⋯⋯.⋯.⋯⋯⋯⋯.⋯⋯⋯..中外对比⋯⋯⋯⋯.⋯....⋯⋯...⋯⋯⋯⋯⋯网络聊天机器人关键技术⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..主要技术路线....⋯⋯⋯⋯...⋯...⋯...⋯..⋯⋯⋯.⋯..本文所做的工作⋯⋯⋯⋯⋯.⋯.⋯⋯⋯⋯.⋯.⋯⋯......第二章中文分词处理技术简述⋯.⋯.⋯.⋯⋯..⋯⋯⋯..⋯⋯......中文分词技术的基本问题⋯⋯⋯⋯.⋯⋯..⋯⋯⋯⋯..........⋯⋯⋯⋯⋯...⋯⋯.⋯⋯.....⋯.⋯第驴衫┏溆锪峡獾慕ⅰ计算机及软件工具环境⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯可扩充语料库的建立⋯⋯⋯⋯⋯.⋯.⋯.⋯.⋯⋯⋯.⋯...词性词表库中的关键数据结构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯第四章最短路径算法的改进算法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.最短路径的分词思想⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..对最短路径算法的改进——次短路径算法⋯⋯⋯⋯⋯⋯⋯⋯..第五章隐马尔可夫模型的基本理论概述⋯⋯⋯⋯⋯⋯