1 / 5
文档名称:

主题爬虫的设计与实现.pdf

格式:pdf   页数:5页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

主题爬虫的设计与实现.pdf

上传人:2112770869 2016/2/18 文件大小:0 KB

下载得到文件列表

主题爬虫的设计与实现.pdf

相关文档

文档介绍

文档介绍:(南京邮电大学计算机学院,江苏南京210003)摘要:在信息化爆炸的时代,一般搜索引擎的搜索结果已经满足不了人们的需要,能获得更准确全面信息的垂直搜索引擎越来越受到关注。其中,主题爬虫作为垂直搜索引擎的核心部分一直是搜索方向的研究热点。文中在分析主题爬虫的结构及特征的基础上,通过引入自己的主题相关度评价方法以及HITS网页排序算法,构建了一个主题爬虫。文中给出了爬虫实现的具体步骤,以云计算为主题,进行了实验。实验结果较好地反映了主题爬虫的实用性。关键词:主题爬虫;HITS算法;主题相关度中图分类号:TP31文献标识码:A文章编号:1673—629X(2014)08—0099—04doi:.1673--focusedCrawlerLINZi-hao(puter,NanjingUniversityofPosts&munications,Nanjing210003,China)Abstract:Intheeraofinformationexplosion,thegeneralcrawlercannotmeettherequirementsofpersonalizedsearchinspecificareas,prehensiveinform~,,rawlerbyintroducingitsownmeasurementoftopicsimilarityandpagerankingalgo-,:rawler;HITSalgorithm;topicsimilarityO引言随着信息爆炸式的发展,用户对于信息搜索的需求越来越多。由于一般搜索引擎查询结果广而不精的现状满足不了用户需求,查询更精确、分类更细致、数据更全面的主题搜索引擎应运而生。主题爬虫是主题搜索引擎的关键和基础,它是根据某一特定的主题,在因特网上能自动抓取和主题相关网页的程序。主题爬虫的主要目标是以特定的方式,高效地抓取Web中与主题相关的网页,尽可能过滤与主题无关的链接,实现搜索的专、深、精。它与传统的通用爬虫相比,减少了对资源的利用并且支持扩张性的检索处理。对于主题爬虫而言,最重要的是如何过滤网页中的前向链接,使得爬虫聚焦在一个特定主题的Web子集中。,并且根据分析、筛选的结果继续爬取合理网页。对比普通爬虫J,需要在原来基础上进行扩充,特别是网页处理部分。整体结构可以看作:初始模块进行初始爬行,主题相关度分析模块进行相关度分析并行适当筛选页面,排序模块对网页的重要性进行一个排

最近更新

网波填料在制无水乙醇中的应用 3页

多源遥感数据在环境评估中的融合分析-洞察阐释.. 46页

2023年度工作总结报告 6 39页

人口流动的数字化追踪与分析-洞察阐释 46页

极地海洋生态效应-洞察阐释 39页

2023年公司年终工作汇报 22页

00Cr18Mo2铁素体不锈钢冷轧钢板的力学性能研究.. 3页

纳米多孔催化剂的制备与应用 3页

紫外分光光度法测定水中硝酸盐氮研究 3页

粘接技术在食品工业中的应用 3页

管理的社会学思考 3页

空间钻石形三塔斜拉桥索力张拉方案研究 3页

税务会计教学与课程目标背离问题分析 3页

积极心理学团体辅导对促进初一新生人际交往的.. 3页

离心式喷嘴流量系数计算方法 3页

硫化镉单晶—无定形半导体异质结的特性及其在.. 3页

矿井水净化工艺选择 3页

石墨烯、硅烯和锗烯薄膜力学性质的分子动力学.. 3页

真丝轧绉工艺初探 3页

目标管理及其在会计管理中的应用——为纪念建.. 3页

疏浚土质分析 3页

电网建设创新探索 3页

2025年江苏省盐城市东台市中考语文一模试卷附.. 9页

电气试验安全技术探析 3页

健身房改造抵房租合同 7页

电子皮带秤校验方法 3页

信息技术公司装修保修合同 7页

2025年广元市事业单位继续教育公需科目试题及.. 12页

初中地理新人教版七年级上册第二章跨学科主题.. 11页

七年级下册数学练习册 4页