1 / 132
文档名称:

的智能信息检索技术 计算机应用技术专业论文.docx

格式:docx   大小:4,630KB   页数:132页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

的智能信息检索技术 计算机应用技术专业论文.docx

上传人:wz_198613 2019/1/4 文件大小:4.52 MB

下载得到文件列表

的智能信息检索技术 计算机应用技术专业论文.docx

文档介绍

文档介绍:的智能信息检索技术研究姓名:傅赛香申请学位级别:硕士专业:计算机软件与理论指导教师:严小卫20020101摘要随着Intemet的快述发展,特别是全球最大的分布式的信息库,为信息共享、资源共享提供了一个良好的平台。但随着大量的信息涌入网络,信息的查找与获取也就变得越来越困难了,出现了“信息迷航”、“信息过载”等问题。作为web上的信息检索工具—搜索引擎也面临着极火的挑战,本文主要就这一智能信息检索工具所涉及的关键技术进行了深入研究,重点从理论上研究了开发新一代的信息检索系统所面临的问题及解决方案。本文的研究内容及所做的突破性:L作如F:(1)分析了当前信息检索技术的现状,指出了当Bi检索技术的不足。对网络检索:l二具及技术进行了全面同顾,井总结了当前检索工具所存在的主要问题及局限性,包括;检索方式不科学、索引方法H;合理、结果提示单一、个’陛化能力羞、智能程度低等。,也要能了解川户,指山了智能信息检索以概念检索为主,而不是简单的串匹配。(2)分析了当b口搜索引擎的系统结构,给出了一个新的智能搜索引擎框架结构。本文提出了一个智能搜索引擎系统结构,围绕智能化系统,增加了领域知识库和用户知识库,增强了用户接口界面的功能。指山必须要有知识库的支持爿。能使搜索引擎真正达到智能化效果。(3)提出了网络信息的搜集算法与更新策略。R曲ot程序是信息搜集与信息更新的基础,本文详细地叙述了其搜集信息的排除标准、搜索策略及搜索算法设计,并给出了一个最近更新策略,保证能在数据信息变更的最短时间内进行检测、下载、更新,人人地避免死链接、无效链接,提高了搜索引擎的查询性能。(4)突破关键词索引方法,提出“属性+内容+结构”的索引方法,并给出了属性、内容、结构的蠢洵语言。目前的关键词索引方法不符合语义理解的需要,网络信息的半结构化、无结构化,也使得组织、索引网络信息特别困难。本文提出要对文档的属性、结构、内容进行组织索引,以满足多接口多角度地查渤需要,这对丁-组织、理解文档信息是有重要意义的。同时还给出了提取文档属性、结构、内容的基本方法以及相关的查询语言。(5)分析了q-文汉字的结合模式,提出一个无词典分词7j法。中文不同1:英文,中文的索引需要经过分词技术。、句法规则十分笼统、复杂而尚未能真止进入实际的分词系统中。本文基于web环境提出了一个无词典分词方法,它绕过了语言语法学方面的局限,通过对词频的统计、过滤,剥于提取中、高频度的词条具有良好的分词效果,也部分解决了新词问题。还引入词条的支持度、置信度概念,以及取大、取小、取中原则,用这二个过滤原则来过滤掉非真实词条,其分准率是较高的。该方法不需要训练,不需要有复杂的语言语法学知识,,具有重要的实用价值。(6)研究r个性化技术,提出建立客户模型。个’l生化技术作为未来商业服务的一个发展趋势,具有重要的研究意义。同时个性化技术用于信息检索也是必然的趋势,本文对个性化技术的各个方面:个性行为、模式获取、用户模型、兴趣模型、模型维护进{_了分析研究,并提出了以客户模型代替刷户模型的观点,给出了一个基本的客户模型示意图。关键词:智能信息检索、个性化、自动分词、/Intranel,especiaIIvrovidesasoundpIaCfomlforinformationandresourcesharing,etheIargestdist—butiveinformationwarehousea¨overClleworld。users九ndthatitisbeconlin譬moreandmoredi茄culttosearchandZaininforlnationava钉abIe,asaIafgeamountofinformaIionrushesontotheIntemetsuchthatalotofproblems,suchas“mfb肿ationmjsnaviga“on"and“mformationoverloadjng”,emerge,Searchengines,servjng站mereIrjeva|抽fomlatjon,,andtheorctica¨yputs111eemphasisonthereseal-chabouttheproblems