1 / 64
文档名称:

校园网中文信息检索系统的设计和实现.pdf

格式:pdf   页数:64
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

校园网中文信息检索系统的设计和实现.pdf

上传人:Horange 2014/1/26 文件大小:0 KB

下载得到文件列表

校园网中文信息检索系统的设计和实现.pdf

文档介绍

文档介绍:校园网中文信息检索系统的设计和实现专业学位硕士学位论文扯作者姓名:夏延芝学科、专业:熬佳王程学指导教师:勇完成日期:大连理工大学号:垒唬
要摘随着因特网的迅猛发展,畔⒆试疵磕甓家灾甘豆媛稍龀ぃ没бT谛畔海洋里查找信息,就像大海捞针一样,搜索引擎技术恰好解决了这一难题⋯.它以一定的策略在因特网中搜集、发现信息,对信息进行理解、提取、组织和处理,为用户提供信息检索服务。目前,搜索引擎技术正成为计算机工业界和学术界争相研究、开发的对本文所阐述的搜索系统采用目前世界上比较流行的向量空间模型媚P及其相关的技术,包括项的选择、加权策略、利用相关反馈进行查询优化等,在文献分类、自动索引、信息检索等许多领域得到了广泛的应用。汉语的词汇在语句中是以线性连续排列的,它不同于西方语言在词汇之间存在分割符崭,因此,汉语词汇的切分执在中文信息处理系统中尤其重要,词汇切分应用于许多信息领域,如机器翻译、文献检索、文献分类、文献过滤、词频统计等。本文采用了一种基于自动机的词典组织结构,并由此生成一种简洁有效的快速分词方法。中文搜索引擎系统由两个部分构成,分别是前台用户查询和后台索引库的维护。其中前台在查询时,系统接收用户输入的中文信息,进行分词、计算相关度的处理,并直观反馈给用户检索的结果;后台维护是管理员更新索引数据库的平台。本文简要介绍了当前与搜索引擎相关的理论和技术,详细阐述中文分词技术,并在此基础上,详细描述了我校校园网络系统的中文信息搜索引擎的设计与实现。关键词:信息检索;搜索引擎;中文信息处理;检索技术;分词技术象。大连理工大学专业学位硕士学位论文
,琾.,瑆.,璽篒籛,琣万延芝:校园网中文信息检索系统的设计和实现,甌瑆,.,,;甌琭瑂,瓸,;
作者签名:塑生兰日期:兰三海海海独创性说明作者郑重声明:本硕士学位论文是我个人在导师指导下进行的研究工作及取得研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得大连理工大学或者其他单位的学位或证书所使用过的材料。与我一同工作的同志对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。
坳储虢盈延塾大连理工大学学位论文版权使用授权书≯∥阥≥月M本学位论文作者及指导教师完全了解“大连理工大学硕士、博士学位论文版权使用规定”,同意大连理工大学保留并向国家有关部门或机构送交学位论文的复印件和电子版,允许论文被查阅和借阅。本人授权大连理工大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,也可采用影印、缩印或扫描等复制手段保存和汇编学位论文。导师签名:大连理工大学硕士研究生学位论文
引言阉饕娴姆⒄垢趴随着互联网时代的到来,教ㄉ洗⒈噶薌兜暮A渴荩庑┦砸诩兜数据资源零散的分布在煌镜闵希嗣俏A耸凳庇行У牟檎也⒗谜庑┍资源,数据搜索引擎技术迎刃而生。人们只需在家或办公室通过互联网准确、全面、快速的查找自己所须的最新信息资源。搜索引擎的技术基础是全文检索技术,从世年代,国外对全文检索技术就开始有研究。,它依靠脚本程序自动搜索网络上共享的文件,然后对相关信息进行索引,以供使用者查询。但是局限于文件索引功能,不算真正意义上的搜索引擎。年大卫。菲勒和美籍华人杨致远共同创办了葾峁┘际踔С郑捎玫是目录索引技术,并标志了以4淼牡谝淮阉饕嬲皆诵小S捎赮搜索引擎需要大量的人工搜索来完成网页目录的更新工作,因此降慢了其更新速度,而且主观性比较强,收录的信息不是很全面。后来獼程序接入到创建予己于年的乃饕绦蛑校阉饕娼肟焖俜⒄故逼凇的出现标志了第二代搜索引擎的发展进入一个崭新的阶段,采用了最新的网页连接评价体系,依据网页连接数量来评价文件的重要性,提高了搜索的效率、准确率,使用户获得更多更全面客观的实时信息,直到现在己成为行业的代表。伴随着也涌现了一大批著名的搜索引擎,中文搜索引擎作为国家重点科研建设项目其基础理论研究工作起步较晚,从世纪末才真正开始立项,但是发展速度很快,理论水平已经基本赶上。由于中文构词法与英文等语言相异,必需采用相应的分词程序,因此国内研究工作并不比国外晚很长时间。但是,学校依据自己理论研究开发满足自己要求的搜索引擎或将其投入商业使用并不多见。目前,由高校自主开发的搜索引擎北大天网等都投入到了商业使用,并获得了可观的经济效益【俊T谖夜咝V校救怂私獾拇笱е校贝筇焱乃阉饕擎是自主开发的,而且独具特色,决不同于其它商业搜索引擎系统。天网资源检索系统是中国教育和科研计算机网示范工程应用系统课题之一,是国家“九五”重点科技攻关项目“中文编码和分布式中英文信息发现”的研究成果,并于年月日正式在上向广大没峁¦信息导航服务。://甦甤