1 / 73
文档名称:

校园网内中文搜索引擎的设计与实现.pdf

格式:pdf   页数:73
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

校园网内中文搜索引擎的设计与实现.pdf

上传人:durian 2014/2/14 文件大小:0 KB

下载得到文件列表

校园网内中文搜索引擎的设计与实现.pdf

文档介绍

文档介绍:西安电子科技大学
硕士学位论文
校园网内中文搜索引擎的设计与实现
姓名:李艳红
申请学位级别:硕士
专业:计算机技术
指导教师:姜建国;孙姜燕
20071001
摘要教学和实践都具有重大意义。关键词:校园网搜索引擎网络爬虫中文分词⒎⒎校园网作为畔⒆试吹囊桓鎏厥馊禾澹涤蟹岣坏目蒲薪逃畔ⅰH今,在校园网范围内的信息检索已经越来越多的为广大师生所关注。西安外事学院校园网拥有数量庞大的网页,由于网络规模的庞大,致使师生们在使用校园网时遇到诸多不便。搭建面向校园网的搜索引擎不仅具有很高的实用价值,而且对论文在研究了的随机冲浪模型和排序算法、中文分词现有理论以及计算机网络的基础上,结合嘞叱瘫喑獭⑼绫喑獭⑹菘獗喑痰燃术,重点设计并实现了文档切分系统、网页排序系统以及网页获取系统与发服务器,由此搭建起了西安外事学院校园网搜索引擎系统。本文所采用的根据用户实际要求而获取网页的思想和设计方法,避免了不相关网页的获取,降低了计算复杂性,只需存储少量信息,解决了目前只面向校园网的搜索却需要大量的计算资源和存储空间的实际问题。此外,文章还提出了一个具有实用意义的用户个性化设计,即用户可以自行确定排序因子。这对于校园网内搜索引擎具有一定的优越性和实用性。实验结果表明,本文设计的中文分词方法具有很高的准确率,基于此中文分词方法所设计的校园网搜索引擎有极高的准确率、覆盖率,完全可以满足校园网用户的使用要求。校园网搜索引擎涉及的问题比较广,本文今后将就提高分词准确率和加快搜索速度做进一步研究。
鷓.,甔痑,痳·甆琲’甅’.篊畂ⅱ鬿瑆甀’.’·痭
本学位论文属于保密在上年解密后适用本授权书。。尽我所知,除了文中特员曜⒑椭滦恢兴蘖械哪谌萃猓畚闹胁包含他人已经发表或撰写的研究成果;也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所作过的任何贡献均已在论文中作了明确的说明并表示了谢意。本人签名:本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。本人保证毕业离校后,发表论文或使用论文工作成果时署名单位仍然为西安电子科技大学。学校有权保留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全部或部分内容,可以允许采用复印、影印、缩印或其它手段保存论文。C艿论文在解密后遵守此规定导师签名:申请学位论文与资料若有不实之处,本人承担一切相关责任。日期:
第一章绪论背景搜索引擎的研究现状緇刀】正是帮助人们从网上检索信息的重要工具,是为目前,关于搜索引擎的概念还没有一个明确的定义。可以从狭义和广义两个它是提供查询,搜索的网站,或称查询站点,导航站点,即因特网上具有检索功搜索引擎的搜索器在网络中爬行,发现和搜集信息。索引器负责从搜索器采集地随着姆⒄梗缫殉晌H嗣腔竦眯畔⒌谋匾M揪逗褪侄危ǜ嫦允荆目前全球网页总数超过凇NU业接杏眯畔ⅲ嗣蔷R:姆汛罅勘蟮氖间,因此,如何从大量信息中获取有用的信息,如何从迅速爆炸的信息中及时获取最新信息,都是目前面临的挑战性问题。搜索引擎了解决网上信息查询困难的问题应运而生的,它可以有效地帮助用户在网络上查找到自己需要的信息。它是在互联网产生后伴随着网上用户快速查询信息的需求的产物,即提供信息检索服务的计算机系统,检索的对象包括互联网上的站点,新闻组中的文章,软件存放的地址及作者,某个企业和个人的主页等。搜索引擎以一定的策略在互联网中搜集,发现信息,对信息进行理解,提取,组织和处理,并为用户提供检索服务,从而起到信息导航的作用搜索引擎的作用已为网民所广泛接受,成为目前互联网上非常重要的网络服务,并被称为“上网第一站”。角度理解。从狭义的角度来说,搜索引擎由信息收集软件,索引数据库和查询接口三部分组成。信息收集软件从一个已知的文档集中读取信息,并检查这些文档的链接指针,找出新的信息空间,然后取回这些新空间中的文档,将它们加入到索引数据库。查询接口通过索引数据库为用户的查询请求提供服务。即搜索引擎指的是基于某种技术在整个网上自动执行网页全文搜索的网上指南工具。从广义的角度上讲,搜索引擎是因特网上的一类网站,这类网站与一般的网站不同的是能的网页。一般说来,搜索引擎由搜索器,索引器,检索器和用户接口等四个部分组成。信息中抽取出索引项,用于表示文档以及生成文档库的索引表。检索器根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现用户相关性反馈机制。用户接口负责与用户交互。现代意义上的搜索引擎是年出现的,由加拿大大学的
个网站的重要性;以被其他网站链