文档介绍:青岛大学
硕士学位论文
数据库自然语言接口研究与实现
姓名:段信义
申请学位级别:硕士
专业:计算机软件与理论
指导教师:邵峰晶
20050609
甲姜摘数据库自然语言接口,是人工智能研究的重要分支之一,主要涉及到计算机自然语言理解和数据库用户接口等关键技术的研究。在用梦适菘馐保没淙氲氖亲匀挥镅圆檠锞洌此对其自动识别的程度是数据库自然语言接口的一项关键技术。目前,国外围绕英、日等语种的这方面的研究己渐趋成熟,但是由于汉语中词与词间没有明显界限、语法复杂以及语义繁多等原因,对汉语自然语言的自动识别极大地制约了τ玫耐卣埂1疚脑谏钊胙芯考扑慊匀挥镅源砑际醯幕∩希坪语自然语言自动识别中上述存在的问题设计实现了基于不确定有限自动机模型的数据库自然语言通用接口系统甆。甆系统实现过程分为三大部分:分词、自然语言评判和中间代码以及目标代码生成。在分词过程中,依据汉语长短语出现频率高的特点,提出了带回溯的最大匹配算法,该算法能够对汉语查询语句进行准确切词,时间复杂度较低。在自然语言评判过程中,采用了不确定有限自动机模型,根据汉语查询语句语法简单且句子间无上下文相关的特点,定义了受限语言文法和状态集合,将分词结果作为P偷氖淙胱址琋模型进行带回溯的状态转移,若状态转移至终态,则说明该查询语句可以被P退邮埽锤米匀挥镅钥梢员焕斫猓环裨其无法被理解,请求用户转化语句格式重新输入。在中间代码以及目标代码生成过程中,若该查询语句被接受,提出了一套中间代码生成机制来生成中间代码,最后由应答机制将中问代码转化成目标镅裕竦貌檠肭螅惺菘獠利用完成的狽系统对学校的学籍管理数据进行了实际查询访问,实验结果表明本文实现的系统是有效的。第一章简要介绍了数据库自然语言接口的研究意义、特点以及国内外研究的动态,提出了当前研究中存在的问题,确定了本文的研究范围和基本框架。第二章主要介绍了系统采用的非确定有限自动机模型以及系统定义的文法、状态集合等。询访问,最后根据查询结果给予用户相应的应答。全文共分六章,各章的内容分别为:
关键词:人工智能自然语言处理数据库自然语言接口人机接口第三章主要提出了系统知识库模型建立方式以及各种知识库的实现方式。第五章介绍了链表结构的中间语言以及镅缘纳桑⒔辛耸笛榻峁第六章对本文进行了总结概述,并对今后的工作进行了展望。第四章提出了基于非确定有限自动机模型具体实现过程,提出了改进的带回溯的最大匹配算法,语法分析方法、中间代码生成机制等。验证、分析。
㈣甀.【瑃琣’猚,.,甀甿瑃.—甀,..:,.,——.痶琲
甌篈,,...甌:琧甀疭.,.,,,—.疭
第一章引言研究的意义近年来随着我国国民经济的迅速发展,各生产和管理部门对计算机应用和数据库应用的需要普遍加强,而广大的非专业数据库用户普遍缺乏计算机专业知识和数据库概念,要让他们对英语的数据库用户界面如国际标准的数据库查询语言恼肥褂檬且患浅@训氖虑椤4车闹形牟檠说ィ檠绞奖冉洗舭澹求,它使用户可直接以汉语自然语言的方式,向数据库系统发问并获得所需信息,从而大大改善了人机交互的容易程度。随着社会生活的日益信息化,人们越来越强烈地希望用自然语言同计算机交库、专家系统、管理信息系统等各种软件,因此,自然语言理解~直是人工智能中的最活跃的研究领域之一。从计算机科学的角度看,自然语言理解的任务是建立一种计算模型,这种计算模型能够像人那样“理解”自然语言。这就有必要给言的机制也还是不能清楚表述。说话人可以用不同的话表达同样的意愿,也可以用同一句话表达不同的意思。反过来,对于同一句话,不同的听话人也会有不同因为交流总是在一定的环境中进行的,交流双方的知识背景一定有共同的部分,而且交流的目的大体上也有了预设。现在的计算机智能还远远没有达到能够像人一样了解环境与理解语言的水平,即使在可预见的将来也达不到这样的水平。囡此,给“自然语言处理”下一个本质性的定义是极其困难的。自然语言处理茄芯咳绾文苋眉扑慊斫夂蜕扇嗣侨粘使用的自然语言⒂铩⒑河,使得计算机懂得自然语言的含义,并对人们给计算机提出的问题,通过对话的方式,用自然语言进行回答““。自然语言处理目前的应用主要包括自然语言人机接口、问答系统、机器翻译、文摘生成、情报检索自然语言人机接口就是允许用户使用某种自然语言的子集在限制领域内同计而且查询功能很有限,因此,为中国用户尽快提供易于理解、便于使用的中文数据库查询系统是十分重要的。中文数据库自然语言界面显然最符台这类用户的要流信息。如果计算机能够“理解”自然语言,用户就能够通过自然语言使用数据出关于“理解”的定义。然而,由于自然语言固有的复杂性,人们对自己理解语的反应。人与人用自然语言ǹ谕返挠胧槊娴进行交流之所以没有困难,是算机进行通讯、交互【D壳八玫娜嘶涌诖蠖嗍且源翱凇⒉说ノV鞯