文档介绍:摘要相似度的渲衱S没У牟檠丶首包含⋯,为需要查询的文件。返回之间的值,值的大关键字:本题,检索,随着网络技术和软件技术的俜⒄梗乇鹗荌疘姆⒄梗硕嗍畔⒆试已不光只是结构性资料,而是出现了很多丰富多样的非结构化形式提供给使用者。各种信息资源迅速增多,不同格式、不同时期、不同应用等异构环境下的复杂数据源并存的局面逐步形成。对各种信息构造一致的表示机制,并在此基础上建立能有效处理和检索各种信息的统一平台,以满足日益增长的信息实际应用的需要无疑是一个颇有研究价值的课题。传统的基于关键词匹配的检索会产生明显的效率问题,检索系统的查全率和查准率都不尽如人意。蚈P畔⒓焖魈峁┝艘恢中路椒ǎ芙饩龃臣焖鞯男矶嗖足。现在基于的信息检索是当前研究和应用的焦点。论文首先介绍了的概念以及实现语义检索的原理与优势,其次介绍了基于技术进行信息检索时需要解决的如下两个问题:如何自动构建与检索系统相关的瑚募约叭绾卧诩焖飨低持性擞肙际趵刺岣呒焖髦柿俊对上述的第一个问题,本文首先给出了系统的募男畔⒈硎荆缓筇岢隽俗远取文档信息的算法,此算法是以最大匹配分词法为基础的,以企业或组织所涉及的相关领域的为分词词典,采用逐字搜索,最长匹配,先删除非用字,再识别关键词的方法来识别本体词,最后计算本体词出现的频度问谋境ざ,将结果记录在募泄┎询。而对于后一个问题即基于的检索算法,论文先提出了计算查询关键词和文档小体现查询词和文件的相似度。然后论文根据这个函数给出了本文的检索算法。本文通过技术在信息检索领域的应用,在信息表示的层次上解决了传统的基于关键词检索中存在的查全率和查准率不高的问题。论文详细介绍了系统实现的全过程。最后对论文工作进行了总结和展望,指出了系统中存在的不足和待改进的地方,并论述了基于技术在信息检索领域的广阔应用前景。贵州大学硕畚
.琒,.鮰甌痶琫,..,,贵州大学硕‘畚..,瓼..
篛琗瑆瓀猻.,”‘‘”.,甌..
第一章绪论信息的检索和分类计算机和互联网的发展为信息管理和共享提供了广阔的平台。当前,人们可以通过搜索引擎检索互联网上存在的各种各样的信息,并相对很好的实现了数据资源的共享和交互。但是随着和企业/的飞速发展,各种信息资源急剧增多。据统计,八十年代全球信息量每隔个月就增加近一倍:九十年代之后,各类组织机构的数据量增长更快,仅一个不大的企业每天就要产生陨侠醋愿鞣矫娴氖荩煌袷健⒉煌逼凇不同应用等异构环境下的复杂数据源并存的局面逐步形成。二十一世纪网络时代的今天,人们一边享受着信息提供的便利,一边也日益感受到“信息爆炸”、“混沌信息空间”和“数据过剩”木薮笱沽Γ雍A啃畔⒅姓业真正有用的信息需要的时间变得越来越长。面对极度膨胀多元化的信息量的挑战,研究集成各种信息资源的机制,实现信息的现代化管理,无论是在经济上还是在技术上,都有积极的现实意义。计算机产业的迅速发展使得以计算机存储设备为载体的电子信息愈来愈多,根据信息的格式可以将其划分为结构化信息和非结构化信息两大类。结构化信息能够用统一的结构加以表示,有着非常良好的数据结构,如关系数据库、面向对象数据库中的数据或符号等等;非结构化信息往往由自然语言表示,一般没有统一的结构。非结构化信息所涵盖的内容十分广泛,主要可分为:部门内容:如各类文档、电子表格、电子邮件及日程安排等:谌荩喝鏗臣癤格式的信息等:多媒体内容:如音频文件、视频文件、图像文件等。信息时代给人类带来了迅速膨胀的信息量,而复杂多样的数据类型给人们良好的管理这些数据带来了巨大的难度。因为即便对于可以方便管理的结构化信息,传统的技术还是没有实现语义上的检索;而对与非结构化信息,人们从中找到有效信息的时间更是变得越来越长。本文提出的方法可以帮助企业或者其他组织更好的管理结构和非结构数据,从企业数据库数据到不同的终端不断产生的电子文档、电子邮件等数据,都可以被任何有权限的用户贵州人学硕:郝畚·●.
——机接口:它的主要作用就是获取用户的查询要求。然后把用户需求交给搜索部分。词会降低检索系统的查全率。因为基于关键词的检索系统使用的是“关键词”进行检索,而语义检索。信息检索的主要任务是解决信息集合和需求集合的匹配与选择问题,以达到尽量满足用户的信息需求的目的。所以说一般来讲一个信息检索系统一般包含以下几个方面:通常使用关键字的方式,以前也在专业领域使用过基于提问系统的交互界面。信息处理:这部分主要是对大量的非结构化的文档进行处理。包括信息如何收集,怎样进行表示,如何抽取等等。信息存储:这一部分主要是如何有效的存储和更新海量的数据。包括索引,数据的压缩,解压等等。搜索引擎:这一部分功能是根据用户的需求从数据库中按照一定的匹配算法进行信息集合与需求集合的一致性比较,并把最终结果返回给用户【。现在的检索系