文档介绍:篨:::.一
徐伶;角伲籄贰⑴西华大学学位论文独创性声明作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究西华大学学位论文有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅,西工作所取得的成果。尽我所知,除文中已经注明引用内容和致谢的地方外,本论文不包含其他个人或集体已经发表的研究成果,也不包含其他已申请学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。若有不实之处,本人愿意承担相关法律责任。学位论文作者签名、:日期:本学位论文作者完全了解学校有关保留、使用学位论文的规定,在校攻读学位期间论文工作的知识产权属于西华大学,同意学校保留并向国家华大学可以将本论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复印手段保存和汇编本学位论文。C艿穆畚脑诮密后遵守此规定学位论文作者签名:指导教师签名:矿日期如
摘要互联网信息以指数级增长,给通用搜索引擎带来巨大压力,使得通用搜索引擎搜索结果不全面,对于用户输入的查询词,返回大量的无关信息,这就使得主题爬行虫诞生。主题爬行虫只抓取与主题相关的网页,忽略掉与主题无关的网页,这样减少了大量的时间在爬行无关网页上。并且主题爬行虫具有爬行时间少,存储空间小,以及能够更好的满足用户的个性化需求等优势,这也同时促进了主题爬行虫的发展。对于各种传统的主题爬行虫,它们在爬行过程中至始至终都是相互独立工作的,多个爬行虫之间没有交流与协作,使得这些爬行虫在爬行的过程中不能及时的进行交流来实现信息共享,出现爬行区域重合和爬行效率不高的状态。将多睦砺塾糜谥魈馀佬谐嬷涞耐ㄐ藕托鳎L岣咧魈馀佬谐媾佬型车准确率和爬行效率提供了新的方向。本文将每一个主题爬行虫看做一个使得主题爬行虫具有自主、灵活、交互等特性,并且采用多闹J独词迪多个主题爬行虫在网页爬行过程中的协作,从而提高爬行虫的爬行精度和爬行效论文的主要研究内容包括以下几点:本文提出了一种招标能力值的度量方法。该招标能力度量方法用于评价一个欠窬哂姓斜昴芰Γ佣龆ǜ肁是否要发布招标信息。这个能力函数不仅考虑了爬行虫的爬行历史网页的重要度,而且考虑了已爬行网页的链接分值。实验证明该能力函数能更准确地评价本文提出了一种新的多闹魈馀佬谐孀橹峁埂T谡飧鲎橹构中,。本文提出了爹;魈馀佬谐娴男髂P汀R恢指慕暮贤被用来实现多魈馀佬谐嬷涞男鳎⑶蚁晗嘎凼隽烁慕合同网协议中的招标、投标、合同签订、合同终止四个过程。针对该协作模型,本文提出了多魈馀佬谐嫦低车南低晨蚣芎凸ぷ髁文章的最后,采用平台实现了本文提出的多魈馀佬谐妫⑶在爬行精度和爬行效率上面与其它四种主题爬行虫进行比较,最终实验证明,本西华大学硕士学位论文率。恼斜昴芰Α狝虲—,他们各尽其责并且相程。
关键词:多恢魈馀佬谐妫缓贤椋恍鳎籎文提出的多魈馀佬谐娌唤隹梢约跎倥佬谐娴耐缗佬兄睾隙龋揖哂懈叩爬行精度和爬行效率。基于多低车闹魈馀佬谐嫘饔胧迪址椒ㄑ芯
狝—,——西华大学硕士学位论文琲狝狝—,甌..瑃,.,.瑆—琣琒,.,琣,,,.甌瑆琤..琣:’’
,珻瓵.:狝;/甀瑃,,琤籆;
目录摘绪论⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯研究目的和意义⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..国内外现状和发展趋势⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯...⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯...诙郃系统的主题爬行虫的研究现状⋯⋯⋯⋯⋯⋯⋯⋯⋯...贤榈难芯肯肿础本文的主要研究内容⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..⋯⋯⋯⋯⋯⋯⋯⋯一本文组织结构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯魈馀佬谐嬉约岸郃系统⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一主题爬行虫的定义⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..主题爬行虫的分类⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯』⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..基于多低车闹魈馀佬谐妗西华大学硕士学位论文要⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..
.郃的组织结构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.诙郃系统主题爬行虫的组