1 / 88
文档名称:

可扩展分布式垂直搜索引擎设计与实现研究.pdf

格式:pdf   页数:88
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

可扩展分布式垂直搜索引擎设计与实现研究.pdf

上传人:山吉 2014/2/24 文件大小:0 KB

下载得到文件列表

可扩展分布式垂直搜索引擎设计与实现研究.pdf

文档介绍

文档介绍:
摘要众所周知,在浩如烟海的珏联网上存在饕大量的隐蔽网络资源,这些资源由于诲多嚣素不容易被雳户轻易地发掘,然而这些隐薮信息在数量和质量上都优予普通的鼹络资源,所以黯它翻豹发撼研究变得越来越重要。通用搜索引擎出于受到爬彳亍深度的限制不可能全面地抓取这些信息,并且许多网站都设鬣了访问权限,一般爬虫唤狗么常煌ㄓ盟阉饕娴囊趁娼馕鲆膊荒苁视Ω骶咛厣懿圈页形式羹要求。掘对子运弼搜索零妫弑柑厥夤β吹拇怪彼阉麈躭擎在挖掘隐蔽信息方面却能取得较好的效果。垂直搜索引擎采用针对资源特点的定制抓取策略和解析方法,能提取出精度非常高的网络信息,对于用户来讲,通过它可以在菜~领域查询到经过精心蒴选豹信息。论文研究了搜索雩娴南喙丶际酢Mü治鲅芯烤劢古莱娴母髦峙佬胁呗裕提出了基于树型网络结构的国外军事论坛网站资源的网络爬虫方法。通常论坛在网络分布上严格符合树型网络结构,可以针对性地加入腿行链路选择机制,使爬虫只掇取存有信息的贴子嚣页。在信息分类方嚣,谂蠢贴予内容含有大量熬无雳信息靥⒍褚夥⑻,丽这些无用信息通过统计发现,含有两个通常的特点:字数少、段落少。本文针对这~特点,提出了基于模糊模式识别的信息分类方法,将贴予信息豹字数和段落数提取如来徽为影响因子,采用样本分辑法确定其影响度翻权重,裉撼拓┦翁扑闳掷嗔ナ裟⑹剑行嫣岣吡朔掷辔诱量。在索引与检索方面,研究了垂直搜索引擎常用的索引软件的索引方法,提出了针对用户查询的结果缓存方法,通过辛耸迪郑蟠筇岣吡思索静响应速度。通过黠搜索雩驽逖芯浚褂肑⒘恕ǜ霭琈甧论坛酶部分信息酶军事资料搜索弓妫⒔懊娴难芯跨使辛耸迪帧W詈笱究了分布式搜索引擎的各种系缆结构及运行机制,提出了基于分布式元搜索引擎系统的分布式垂崴搜索弓娴南低晨蚣埽⑻岢隽嘶贑模式的分柱式实现方法。主题词:垂庭搜索善娣植际骄劢古莱婺:掷国防科学技术大学研究生院一程硕十学能论文第
甌,,.曲国防科学技术火学研究生院:程硕士学位论文’.,,甌,..,,:琣’
表录目表深度优先的爬行路径⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.表广度优先的爬行路径⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..部分网页地址⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯表贴子字符数统计情况⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯表贴子段落数统计情况⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。表贴子字符数因素影响度⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯表贴子段落数因素影响度⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.表数据库表结构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯表三种索引查询比较⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.表功能说明⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.表因素隶属情况⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯国防科学技术大学研究生院:程硕宦畚第
图目录图ぷ髁鞒獭网页链接模型⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯广度优先爬行策略⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯有层次关系的关键词集合⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯聚焦爬虫体系结构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.爬虫程序流程图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.爬虫抓取网页情况⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.信息提取流程图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯贴子段落数因素影响度⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.贴子分类流程图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.建立索引的过程⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..的检索过程⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..倒排文件检索过程⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯搜索引擎主界面⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..第Ⅵ页图体系结构图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.哈希函数实现⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯倒排索引⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.聚焦爬虫基本流程图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.界面⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯网页超链树形拓扑图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.下载的部分镜像文件⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯解析出的部分贴子文件⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯贴子字符数因素影响度⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.