1 / 67
文档名称:

面向可下载资源的WEB搜索引擎的设计与实现.pdf

格式:pdf   页数:67
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

面向可下载资源的WEB搜索引擎的设计与实现.pdf

上传人:cherry 2014/1/25 文件大小:0 KB

下载得到文件列表

面向可下载资源的WEB搜索引擎的设计与实现.pdf

文档介绍

文档介绍:湖南大学
硕士学位论文
面向可下载资源的WEB搜索引擎的设计与实现
姓名:刘宇波
申请学位级别:硕士
专业:软件工程
指导教师:孙星明
20050510
摘要载资源方面,通用搜索引擎还存在着一些不足之处:大多数情况下都没有返回直提供的可下载资源的质量之间并无必然联系。因此,在搜索引擎的设计上充分考针对可下载资源的以上特性,本文设计了一种面向可下载资源的搜索引擎一~。采取了以资源为中心的信息收集策略,梦首试文件中各标签内容与查询关键字的相关度来对搜索结果进行排序,最后由用户接利用搜索引擎,人们可以在互联网中迅速定位自己所需的信息。以为代表的通用搜索引擎在信息检索方面很好的满足了用户的需求,但在搜索可下接指向可下载资源的目标链接;没有对可下载资源的可访问性进行检测从而导致帧八懒础薄1疚耐ü芯靠上略刈试吹奶匦裕岢隽艘恢中碌拿嫦蚩上略刈源的搜索引擎,以此来弥补通用搜索引擎在搜索可下载资源方面的不足。本文首先分析了可下载资源的特性,其与一般趁娴那鹗牵篧页面只是通往可下载资源的路标,且无法确保能找到可下载资源:网站的知名度与其虑可下载资源的特性是提高对可下载资源搜索质量的关键。时会检测其可访问性,并将与其关联的网页保存到本地数据库中;同时其索引的建立也只针对与资源关联的网页,在建立索引前,通过对网页进行预处理来构建资源描述文件,使得建立索引的开销大幅降低;而排序程序则通过计算资源描述口将资源描述文件中指向可下载资源的目标链接作为结果集返回给用户。新的搜索引擎在设计上充分考虑了可下载资源的特性。基于提出的的设计思想,本文实现了的一个原型系统,该系统由?椋琁模块,模块,用户接口四部分组成。以此原型系统为平台,本文进行了一系列的实验,分别针对设计目的的达成度,男畔⑹占剩低车纳焖跣越辛瞬馐浴J笛楸砻鞅疚奶岢龅搜索引擎在可下载资源搜索方面较好的弥补了通用搜索引擎的不足之关键词:互联网:搜索引擎;网络爬虫:可下载资源;倒排素弓处。硕士学位论文
:::::——::』鳖里墼塑些些彗塑坠型茎塑—————:。—一曲,篒籹,瓽,琱—:,痶甀,瑃痩猺·;—,’.—..;籨;痶甊
插图索引图索引处理流程⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.图可下载资源摹岸兑趁妗薄图资源描述文件示例⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.图搜索引擎系统结构图⋯⋯⋯⋯⋯⋯⋯⋯⋯图文章结构图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.“博客中国”网站的梦嗜罩尽图畔⑹占惴ā圈信息搜集策略比较⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.腃模块架构图⋯⋯⋯⋯⋯⋯⋯图可下载资源摹耙患兑趁妗薄尉可下载资源与热点区域关系图⋯⋯⋯⋯⋯⋯⋯⋯.国单词索引结构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图撑盼牡邓饕峁埂图古潘饕峁埂图索引结构图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.图饕闪鞒掏肌图判蚱作流程⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯判蛩惴ā原型系统结构图⋯⋯⋯⋯⋯⋯⋯⋯⋯.响应标头⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.魍肌圈数据表字段说明⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯数据表字段说明⋯⋯⋯⋯⋯⋯⋯⋯⋯.. 数据表字段说明⋯⋯⋯⋯⋯⋯⋯..数据表字段说明⋯⋯⋯⋯⋯⋯⋯⋯⋯. 数据表字段说明⋯⋯⋯⋯⋯⋯⋯⋯⋯.荼碜侄嗡得鳌用户界面⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.馐猿跏糢⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯搜索结果⋯⋯⋯⋯⋯⋯⋯⋯⋯搜索结果⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..阉鹘峁搜索测试结果⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⋯.⋯..⋯硕士学位论文...,.⋯,⋯....,......
附表索引“惫丶殖鱿治击咄臣啤原型系统环境配置⋯⋯一诵睦嗨得鳌部分响应状态码⋯⋯⋯⋯⋯..数据类型⋯⋯⋯⋯⋯⋯⋯⋯..?楹诵睦嘟樯堋占什馐越峁资源描述文件与原始网页占用空间对比情况表
作者签名:知\雪镏日期:沙埠月沙日⒈C芸冢凇!D杲饷芎笫视帽臼谌ㄊ椤学位论文原创性声明学位论文版权使用授权书湖南大学日期:挪阥月胪日日期:山苣晁暝氯齬曰本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阕。本人授权湖南大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。本学位论文属于⒉槐C芡拧朐谝陨舷嘤Ψ娇蚰诖颉啊獭
第滦髀一—————————:::::::::::::::』耋耋茎堡茎窒圣::::::::::::::::::::课题来源研究目的与意义一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,~般畔⒌募