文档介绍:西北大学
硕士学位论文
风险主题搜索引擎相关技术的研究与应用
姓名:常庆
申请学位级别:硕士
专业:计算机应用技术
指导教师:周明全
20080619
摘要本课题得到了“十一五”国家科技支撑计划重点项目—酆戏缦辗婪伸,是对网页库中的某类专门的信息进行一次整合。其中的关键技术包括中文分岢隽艘恢只谀谌莺土唇臃治鱿嘟岷霞扑阒魈庀喙囟鹊乃阉鞑呗浴;于唇悠兰鬯惴ǹ悸橇肆唇咏峁购鸵趁嬷涞囊霉叵担ê雎粤艘趁与主题的相关性。基于内容评价的算法只注重文本在主题搜索中的重要性,而忽略了峁沟淖饔谩W酆系乃阉鞑呗岳没谀谌莸钠兰劾刺岣咚阉髂谌与主题的相关度,同时利用基于链接结构的评价来提高主题资源搜索的覆盖率。算法的改进,提高了畇惴ǖ氖笨招剩谥魈庀嗨贫燃扑惴椒ㄉ应用了向量空间模型;在胫魈獾南喙匦耘卸ㄖ校酆显擞昧送澄谋灸隽嘶诟慕古疟淼乃饕魃杓品桨福铀饕募旧淼慕峁钩龇进行改进,采用分级的倒排表索引组织结构,提高了索引创建的效率。在索引更新部分设计了索引器的批量索引方法与增量索引方法,实现了索引文档的动态更新。将改进后的算法与基于乃饕际跸嘟岷希诖嘶∩鲜迪至诳T聪钅縉,设计并实现了一个风险主题搜索引擎,把自己建立的主题搜索引擎查询结果和网站现有的搜索结果进行比较分析,证明了系统关键技术研究与示范”支持。关键词:风险主题搜索,空间向量模型,算法,倒排表,主题搜索引擎是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延词、主题爬虫、索引、分布式存储等,本文重点研究网络资源的爬虫和索引的主题搜索技术,具有重要的应用价值。主要工作包括:。从恿形ず图焖魇蔽实慕嵌瘸龇⒔容和峁雇嫉钠舴⒉呗裕哟梦释镜氖奔湫阅芤蛩爻龇ⅲ慕算法。一个风险主题搜索引擎索引的建立与维护。可以为用户提供完整准确的风险主题信息查询服务。
,”...,甌,,籺.:
:.甒蹦..琍甌眑眕盞,琋
指导教师签名:啦鲎箧学位论文作者签名:第灰文晟嘣露呷≯D昝鋧勺郉墨年今日西北大学学位论文知识产权声明书本人完全了解西北大学关于收集、保存、使用学位论文的规定。学校有权保留并向国家有关部门或机构送交论文的复印件和电子版。本人允许论文被查阅和借阅。本人授权西北大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。同时授权中国科学技术信息研究所等机构将本学位论文收录到《中国学位论文全文数据库》或其它相关数据库。保密论文待解密后适用本声明。学位论文作者签名:西北大学学位论文独创性声明本人声明;所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,本论文不包含其他人已经发表或撰写过的研究成果,也不包含为获得西北大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的厨志对本研究所傲的任何贡献均已在论文中作了明确的说明并表示谢意。
第一章绪论引言主题搜索引擎,也被称为垂直搜索引擎或专用搜索引擎,是以构筑某一专题或学科领域的缧畔⒆试纯馕D勘辏悄艿卦诨チM纤鸭险庖蛔题或学科需要的信息资源,为包括学科信息门户、专业信息机构、特定行业领域、公司信息中心、行业专家等在内的信息用户提供整套的网络信息资源而产生的查主题搜索引擎与通用搜索引擎存在着很大的差别:通用搜索引擎面向任何用户提供对任何信息的查询,而主题型搜索引擎则面向专业用户,需要向他们提供其所在专业的信息检索。通用搜索引擎对网络进行逐页的爬行,试图遍历整个6魈馑阉饕则采用一定的遍历策略预测相关网页的位置,动态的调整对网页的爬行方向,使询工具。服务目的不同搜索方式不同信息采集模块索引模块检索模块图主题搜索引擎系统结构图
主题搜索引擎的研究现状系统尽可能的在与主题相关的网页集中进行爬行,这将节约大量的网络资源。对硬件和网络的要求不同通用搜索引擎需求过大,而主题型搜索引擎由于没有遍历整个谠剂舜量的网络资源,而且没有自己的大型索引数据库所以硬件需求也比较低。相对于通用搜索引擎,主题搜索引擎的实现难点有两个:第一,起始种子站点和词库的设置。因为该引擎并不遍历整个云鹗颊镜慵暇拖缘酶裢重要。词库作为评价网页是否相关的标准的关键词的集合,它的合理配置直接影响到检索结果的准确性。这两个方面的设置是否合理共同决定了引擎能否找到所有的相关内容。第二,既然是有选择性的抓取信息,那么这个有选择性的遍历乃惴ň椭苯佑跋炝苏饫嘁娴墓ぷ餍省4送猓畔⒌谋硎尽⑿畔⒊槿信息过滤和下一个搜索站点的选择策略都是系统实现的难点。作为主题搜索引擎的关键部分,主题爬虫的研究包含在主题搜索引擎的研究之中。目前,主题搜索引擎网络爬虫通常采用“最好优先”原则访В为快速、有效地获得更多的与主题相关的页面,每次选择“最有价值”的链接进行访问。