文档介绍:河北农业大学
计算机检索技术论文
姓名:张晓腾
专业:计算机科学与技术 1101班
学号:20********** 指导教师:赵洋
摘要
问答技术是自然语言处理领域中一个非常热门的研究方向,它综合运用了各种自然语言
现有问答系统的分类,大致可以分为:聊天机器人、基于知识库的问答系统、问答式检 索系统以及基于自由文本的问答系统。
2. 2。1聊天机器人
2. 2. 2基于知识库的问答系统
2. 2. 3问答式检索系统
2. 2. 4基于自由文本的问答系统
2 . 3问答系统技术分类
目前的问答按技术分为以下几类:基于事实性问题问答技术、基于问答模式匹配的问答 技术和基于自然语言处理的问答技术,分别介绍如下。
2. 3. 1基于事实-性问题的问答技术
3基于自然语言处理的中文问答系统概述
3. 1系统框架
系统主要包括五个部分:问题理解、信息检索、信息处理、答案抽取、①问题理解 (QuestionAnalysis);②信息检索(Information Retrieval);③信息处理(Inforraation Processing);④答案抽取(Answer Extraction).
3. 2系统资源
基于自然语言的问答系统,其实现需要自然语言处理、知识聚类、数据挖掘等技术支撑。
在充分利用这些技术的同时,也必须建立相应的系统资源。
3. 3自然语言处理.
自然语言处理的任务是对语言的字、词、句、篇章的语音形式和书面形式进行输入、输 出、统计、检索、识别、分析、理解和生成。研究的核心问题是语言的自动理解(Language Understanding)和自动生成(Language Generation)。所以,计算语言学理论的任务是描述 和解释自然语言的现象和规律,建立形式化的语言模型,并且提供相应的算法,使其得以在 计算机上实现。自然语言处理的应用目标是使人与计算机之间用自然语言进行交流。具体说 是建立各种处理自然语言的计算机应用软件系统。一般来说,科学研究转化为产品的过程是 从理论研究、应用研究到应用技术。在我国的语言处理领域,人们也一直向往着能从某种语 言理论衍生出相应的处理汉语的应用系统。然而,由于学科发展的局限性和汉语本身的复杂 性。
4信息检索
4・1传统的检索模型
传统的信息检索,主要是起源于图书的管理学,早期通过人员的手动编制,对每笔资料 定义其索引字(indexterm),用数个最符合文件内容的关键词来代表其整体含义,而用户只 能透过关键词的输入来进书名或文件的检索:时至今日,检索模型主要衍生有几大类:布尔 模型(Boolean Model)、模糊逻辑模型(Fuzzy LogicModel)、向量模(Vector Model)及概率 模型(Probability Model)。
4・2基于语言模型的信息检索
1统计语言模型。
语言建模技术要解决的问题是,对于一个服从某个未知概率分布P的语言L,如何根据给 定的样本集估计P因此通过语言模型可以决定哪一个词序列的可能性更大或是已知若干个 词,预测下一个词。语言模型首先在语音识别中提出,后来陆续用到光学字符识别、手写字 识别、机器翻