1 / 47
文档名称:

【硕士论文】中文问答检索系统的设计与实现.pdf

格式:pdf   页数:47
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

【硕士论文】中文问答检索系统的设计与实现.pdf

上传人:fxl8 2013/4/19 文件大小:0 KB

下载得到文件列表

【硕士论文】中文问答检索系统的设计与实现.pdf

文档介绍

文档介绍:大连理工大学专业学位硕士学位论文
摘要
互联网技术的飞速发展,使网络信息资源以指数级规律不断增长,但人们却很难
在杂乱无章的网络中快速、准确地获得自己想要的信息。如何有效的对网络信息资源
进行检索和利用,这是信息检索技术需要进一步解决的关键性问题。问答检索系统可
以帮助用户在大量的文本集合中更精确地找出确切的答案。
本文结合实际,设计了一个中文问答检索系统的模型并加以实现,阐述了系统设计
过程中涉及到的自然语言处理、信息检索、信息抽取的理论和技术,给出了系统的结构
设计和功能设计,重点对问题处理、信息检索、答案抽取功能的实现进行了阐述,提出
了问题答案映射的方法及问题焦点的识别;‘提高了答案类型识别的正确率。本文利用自
然语言处理技术,对问题和文献库中的段落句子进行了比较细致的语法和语义上的分
析,把名词、动词同义词扩展,名词语义蕴涵扩展,根据问题类型扩展应用到关键词扩
展中,取得了比较好的效果,提高了系统的性能。
本文采用了问题一答案映射、信息检索技术、信息抽取技术,充分利用自定义词典
工具提供的词汇信息和语义信息,将自然语言处理技术应用于中文问答检索系统中进行
简单的文本处理,弥补了单纯使用信息检索技术的不足,使系统更趋近于智能化,更好
地满足用户的需求。
目前,系统已经测试完毕,正在试用,效果较好。
关键词:信息检索;问答检索系统:自然语言处理
问答网/
问答网/
百万个问题,当然,目前仓荒芄换卮鹩泄氐乩怼⒗贰⑽幕确矫娴募虻ノ引言珹,珽等。腟¨系统是其中的佼随着互联网的高速发展,网上资源信息越来越多,传统搜索引擎的弊端逐渐显现出来。传统搜索引擎的弊端主要有三个方面:一是以关键词的逻辑组合来表达检索需求,因为人们的检索需求往往是非常复杂而特殊的,是无法以几个关键词的简单组合来表达的,这样用户都没有将自己的检索意图表达清楚,搜索引擎自然也就没有办法找出令用户满意的答案了。二是以关键词为基础的索引、匹配算法尽管简单易行,毕竟停留在语言的表层,而没有触及语义,因此检索效果很难进一步提高。三是检索结果是一大堆所谓的相关网页,也就是说这些网页中可能包含和用户的检索需求相关的内容,但真正的答案要用户自己到网页中去找。因此,探索新型的更高效、更人性化的搜索引擎具有十翁庋芯肯肿目前国际上,问答系统的研究方兴未艾,许多大的科研院所和著名公司,都积极参与到该领域的研究,其中比较著名的如、等等“谠谖蚀鹣低撤矫娴难芯肯喽怨饨衔2蛔悖主要有中科院计算所、复旦大学、哈工大等一些单位。在国际互联网已经有一些面向不同专业领域或开发域的问答系统,比较著名的有佼者,比较接近自然语言问答,其核心技术是基于知识标注和数据挖掘ń峁够虢峁够萦胱杂筛袷轿谋厩鸫怼暝诨チM戏⒉荚诵兄两瘢丫卮鹗澜绺鞯氐某汕贤蚋鲇没У氖题,并且对连续的问句缺乏关联处理能力,即还不能处理语义的上下文理解。对于中文问答检索系统,国内的研究更是少之又少,虽然已有一些大学和科研机构着手研究开发,但总的来说,还处于较为初级的发展阶段,与国外相比存在很大差距。主要原因,一方面由于涉及到中文信息处理的特点和难点,国外一些相关成熟的技术和研究成果不能利用;一方面由于缺乏相应的语言处理基础资源,如知识库,语料库等;畚谋尘分重要的意义。大连理工大学专业学位硕士学位论文、
问答网
另外国内在这方面投入的人力物力以及重视的程度都不能和国外相比。这些都造成了中文问答检索系统的发展缓慢。疚闹饕9ぷ本文主要是在参考国内外相应的问答系统的基础上,结合本系统实际,设计出一个中文问答检索系统的模型并加以实现。本文阐述了自然语言处理、信息检索、信息抽取等相关理论技术,给出了系统的结构设计和功能设计,重点对问题处理、信息检索、答案抽取功能的实现进行了阐述。本文利用自然语言处理的技术,强调了问题和文献库的语义和语法分析,对问题进行了比较全面和细致的语义分析,并将这种方法和技术应用到文献库的段落窗口分析上,大大提高了系统的性能。本文采用了问题一答案映射、信息检索技术、信息抽取技术,充分利用自定义词典工具提供的词汇信息和语义信息,将自然语言处理技术应用于中文问答检索系统中进行简单的文本处理,弥补了单纯使用信息检索技术的不足,使系统更趋近于智能化,更好地满足用户的需求。第虏龊头治隽俗匀挥镅源怼⑿畔⒓焖鳌⑿畔⒊槿〉壤砺酆图际酢第绿岢隽酥形奈蚀鸺焖飨低车纳杓扑枷耄隽讼低车慕峁股杓坪凸δ苌杓啤第孪晗附樯芰宋侍獯碇卸晕侍饨蟹执屎痛市员曜ⅰ⑷范ㄎ侍獾睦嘈汀⒋案类型识别、问题焦点识别、提取出问题的关键词以及依据答案的类型等因素对关键词进行适当的扩展等功能的具体实现。第孪晗附樯芰诵畔⒓焖髦形南准焖鳌⒍温溲≡瘛⒍温淙ㄖ丶扑慵芭判虻裙δ埽并给出了实现过程中对一些问题的解决办法