文档介绍：重庆大学本科学生毕业设计(论文)附件附件B:开题报告B1毕业设计(论文)(含国内外的研究现状分析或设计方案比较、选型分析等)网络爬虫,又被称为网页蜘蛛,是一种按照一定的规则,自动的抓取互联网信息的程序或者脚本,它为搜索引擎从互联网上下载网页,是搜索引擎的重要组成。随着网络技术的发展以及网络的普及化,互联网已经成为承载信息的一个巨大媒体,如何有效地提取并利用这些信息成为一个巨大的挑战。然而传统的通用搜索引擎的网络爬虫,一般是从几个种子URL链接开始进行全盘爬行,尽可能地获得网页,以及最大可能去遍历更多的网页,它往往存在着返回的结果包含大量用户不关心的网页,和难以支持根据语义信息提出的查询等局限。为了解决上述问题,定向抓取相关网页资源的聚焦爬虫(即专业型的搜索引擎)应运而生。它根据既定的抓取目标,有选择的访问互联网上的网页与相关的链接,获取所需要的信息。与通用爬虫目标不同,聚焦爬虫并不追求大范围的覆盖,而是将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。本课题研究的是“面向汽车色彩领域的聚焦爬虫设计与实现”,属于专业搜索的范畴。在此范畴里,网络爬虫首先需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。其次,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。在此过程中,如何评价和预测链接的“重要程度”是决定网络爬虫搜索策略的关键。对于这一问题,近年来学者们提出了以下的一些评价标准和模型。1994年,DeBra等人在提出了FishSearch算法,它是最早的网络爬虫系统之一。它通过假设相关页面在逻辑上彼此接近,根据深度优先搜索算法,利用一组关键词和短语来判断页面的相关程度。但由于其搜索范围存在随机性,导致搜索时间过长。针对这些不足,Herseovic对Fish系统进行了改进,将“鲨鱼’’算法引入网络蜘蛛的搜索策略,把链接的上下文信息(包括链接和文本)作为计算的重要因素来帮助决定待访问的链接对于特定主题的文档相关性。1998年,,,即PageRank算法。PageRank算法最初用于Google搜索引擎信息检索中对查询结果的排序过程,近年来也被应用于网络爬虫对链接重要性的评价。基于PageRank算法的网络爬虫在搜索过程中通过计算每个已访问页面的PageRank值来确定页面的价值,并优先选择PageRank值大的页面中的链接进行访问。但其不足就是忽略了主题相关,导致结果的相关性和结果偏离。同年,,该算法是利用Hub/Authority方法的搜索方法,它通过每个已经访问的链接,计算其Authority权重和Hub权重,以达到决定链接的访问次序的目的。该算法最大的弱点是处理不好主题漂移问题, 即紧密连接重庆大学本科学生毕业设计(论文)附件附件B:开题报告B2TKC(Tightly-munityEffect)现象,而且进行窄主题查询时,可能产生主题泛化问题。2000年,,与基于链接的评价体系的PageRank算法,和利用Hub/Authority方法的HITS算法不同,它