文档介绍:挂林理工大学密级:——基于搜索引擎的研究与实现菇ǖ拇怪蚅硕士研究生学位论文研究方向:研究生:指导教师:计算机应用技术计算机网络技术崔建明副教授专业:陈光辉编号:.论文起止日期:月至月
:篊:■
学位论文作者签名:讶、肜砰学位论文作者┳:硒:盏盟垦研究生学位论文独创性声明和版权使用授权书签字期:趔⒇结芘谭签字日期:砌月〦学位论文版权使用授权书绣日签字日期:独创性声明本人声明:所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含他人已经发表或撰写过的研究成果,也不包含为获得其它教育机构的学位或证书而使用过的材料。对论文的完成提供过帮助的有关人员已在论文中作了明确的说明并表示谢意。本学位论文作者完全了解有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的印刷本和电子版本,允许论文被查阅和借阅。本人授权可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。同时授权中国科学技术信息研究所将本学位论文收录到《中国学位论文全文数据库》,并通过网络向社会公众提供信息服务。C艿难宦畚脑诮饷芎适用本授权书导师签字:建’‰、
摘要随着社会的高速发展,人们生活水平的不断提高。笔记本电脑正逐步走进千家万户的家中,成为人们工作、生活、娱乐不可或缺的重要组成部分。然而,在人们购买笔记本电脑之前,往往只能通过店面营销人员的介绍、讲解,才对笔记本有一个大致的了解。而且大多数人记不住笔记本的各项参数;除此以外,通过搜索引擎查询某个品牌,得到的反馈信息,与自己的期望相差甚远。所以,人们十分迫切需要一个能够提供笔记本电脑各项性能参数的平台。本文通过学习开源蜘蛛程序和开源全文检索框架,依靠开发工具,为人们搭建了这个平台。以其强大的抓取数据能力,正逐渐成为专业爬虫软件的首选,但由于配置复杂,所以本文详细讲述了如何实现抓取网页数据,如何扩展的各项功能组件,以实现对特定网站数据的抓取;为提高的工作效率,本文还对原有功能组件作了扩展,使其以多线程方式抓取网页数据,极大地提高了下载的效率。此外,本文通过对的研究,实现了品牌检索的功能,不仅如此,本文还考虑了基础排序算法在本系统中应用的不足,对其改进,改进算法时,借鉴了算法的思想,认真考虑了网页间的链接关系应该对网页间排序有很大的影响,并综合考虑了网页内容和网页间链接关系对结果页面排序的影响。最后,给出了改进后的排序公式并设置了合适的权重因子,实现了综合排序的功能,从而使改进后的排序更加客观、更加真实。文章最后利用本文实现的系统平台,重点在两个方面作了测试对比:一方面是同当前大众使用的搜索引擎作了对比,对比测试说明本系统在查全率和查准率方面都具有很强的竞争力;另一方面对比了改进前后的排序算法,对结果页面排序的影响,测试的结果达到了预期的设想。关键词:笔记本:;;;排序Ⅳ
瑆,琤甒甅,.甌,瓾,,’.琲·.,.,.,,·,琣Ⅱ觥
..