1 / 57
文档名称:

网络信息动态采集策略的研究及应用.pdf

格式:pdf   页数:57
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

网络信息动态采集策略的研究及应用.pdf

上传人:779277932 2012/2/7 文件大小:0 KB

下载得到文件列表

网络信息动态采集策略的研究及应用.pdf

文档介绍

文档介绍:一:’..:篢:
例产相夕县南纰学位敝作者虢杨华指剥币魏学位论文作者签名:柄华甏踉动¨年』月日口保密,在一年解密后适用本授权书。町彖保密。们年耭河北科技大学学位论文原创性声明河北科技大学学位论文版权使用授权书本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。对本文的研究做出重要贡献的个人和集体,均己在文中以明确方式标明。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的作品或成果。本人完全意识到本声明的法律结果由本人承担。本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权河北科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。本学位论文属于朐谝陨戏娇蚰诖颉”指导教师签名:、
摘要在咚俜⒄沟慕裉欤呈考本绲脑龀ぃ畔⒉杉挠布醇大的压力,与此同时,搜索引擎中网络爬虫的“密集”抓取活动会阻碍普通用户通过浏览器的正常访问。网络信息的采集策略对如何充分有效地利用畔⒃词侵关重要的,有必要根据网页自身更新的频度来动态地调整搜索引擎采集的频率。一方面可以有针对性的采集,网页变化频率加快时可以增加采集次数,网页变化频率放慢时可以减少采集次数;另一方面减少因网站集中于某时间点采集给硬件所带来的压力。本文分析了网络爬虫原理及增量采集技术的特点,然后进一步研究了网页的变化规律,介绍了相关行业数据采集方面的自适调节周期算法。针对目前网页变化频率阈值的确定仍然存在较大主观性的情况,本文提出了四分位法,该方法是在采集过程中记录下最近问荩盟姆治皇远范ǜ勉兄怠1狙芯恐兴τ猛信息动态采集策略是,结合网站蚱档的自身特点,以增量信息采集技术为基础取得采集周期内的网页变化,然后与四分位法所确定的网页变化频率阈值进行比较,当网页的变化频率超出该阈值时,相应的调节采集周期,从而实现网络信息动态采集的目的。另外,还结合本课题组动态采集算法进行了进一步改进研究。实验表明本文所提出的动态采集算法是可行的,有一定的借鉴价值。在与课题组动态采集算法的比较实验中平均动态采集算法时新性较好。本论文研究有助于更加充分有效地利用系男畔⒆试矗奔跣×诵畔⒉杉杂布囊G蟆关键词信息采集:动态采集:网页变化;四分位法
瓼,,.,琣瓾甀甆、杭,...,瓵瑃,,瑃甌..
目录摘要⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一录⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯第滦髀邸璴课题研究的背景及意义⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯课题的主要工作和创新点⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯本文研究内容及组织结构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.第滤阉饕娴南喙丶际酢搜索引擎概述⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.阉饕娴钠鹪从敕⒄⒄⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯增量采集⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯·动态信息采集技术⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯·网页变化规律的研究⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.杉芯俊本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯·第动态更新算法设计⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯·动态采集策略的提出⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯·.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯·动态更新算法的流程图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯‘⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯··.
动态更新的具体算法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.动态采集实验⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯·.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯··.骄ǘ杉牖平鸱指罘ǘ杉谋冉涎芯俊本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯“第露滤惴ǖ母慕基于网站优先级动态调整的动态采集算法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯”改进的平均动态采集算法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯·采集周期内部算法流程图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯”.畔燃侗碚髦副