文档介绍::’::.篢:;●,二一.
指导教师签诌轧研指导狮签名≥易虬仞//年争月,眨仂悼广月泸么㈠引邸小厶吣艮口保密,在』解密后适用本授权书。酥保密。河北科技大学学位论文版权使用授权书河翱萍即笱а宦畚脑葱陨二/乙/本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的作品或成果。本人完全意识到本声明的法律结果由本人承担。学位论文作者签名:本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权河北科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。本学位论文属于朐谝陨戏娇蚰诖颉啊
摘要随着互联网技术的飞速发展和网络信息资源爆炸式地增长,互联网用户的数量也在以惊人的速度增加着。越来越多的网民开始习惯于通过搜索引擎在网上检索信息。现在搜索引擎已成为人们必需的网络应用工具,随着搜索引擎应用的广泛普及,人们已不再满足于传统的搜索引擎为人们提供的服务,人们希望搜索引擎能够更加智能化,更加人性化,检索结果能够更加准确,这些新的需求都给搜索引擎技术提出了更高的要求。本文对目前处于研究热点的智能搜索引擎技术领域的几个关键性问题进行了一些探索性的研究。内容主要包括:提出并实现了基于网站优先级调整算法的网页信息动态采集技术,通过检测采样网页平均时新度的变化来动态调整网站的优先级别,从而达到对相应网站网页信息采集频度的动态调整。研究了网页源码中的中文文字密度与网页正文的关系,提出并实现了基于文字密度的网页正文提取算法,摆脱了已有的网页正文提取算法对网页,超文本标记语言昵┑囊览担ㄖ砸欢ǖ墓嬖颍佣迪至烁咝Э焖俚靥崛⊥痴摹对文本自动分类领域里的几个关键问题进行了研究,提出并实现了基于哈希表的动态向量降维技术,提出并实现了改进的向量余弦相似度算法,研究了概念主题词对网页文档的唯一标引性,构建了基于主题词向量的向量空间模型,并且研究了这些算法在文本自动分类中的应用。研究了文本自动分类技术在网页自动分类中的应用,提出并实现了类别中心向量分类算法和劾郖近邻掷嗨惴ā芯苛基于向量空间模型的文档结构模型和向量余弦相似度在文本自动摘要中的应用,提出并实现了基于相似度的文本摘要算法。最后应用本课题研究成果实现了一个集网页信息动态采集、网页正文自动提取、网页自动分类、网页主题词提取和网页文档自动摘要功能于一体的,具有实时性和自适应性的实用的网页信息动态采集系统。关键词智能搜索引擎技术;网页信息动态采集系统;网页正文提取;网页分类算法;网页摘要;向量动态降维’一
甌..,.,,。衲馹瘛馡縚縚自●目目目●目●瘛馹●馹●瘛馹.,;;..
;;籚瑂瑃.;
目录摘要⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..第滦髀邸研究课题的选题背景和意义⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯国内外相关工作综述⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯网页信息动态采集技术⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.形耐痴奶崛〖际酢自动文档摘要技术⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..论文的主要研究工作⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..畚哪谌莅才拧璴第禄谕居畔燃兜髡耐承畔⒍杉惴ā算法流程图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯网页时新度算法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯基于网页时新度的网站优先级调整算法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯~⋯基于网站优先级的多线程网页信息采集技术⋯...⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一根据网页类别确定优先级⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯“第禄谖淖置芏鹊耐痴奶崛∷惴ǖ难芯俊算法流程图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯·正文文本特征的识别与处理⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一⋯⋯⋯⋯⋯·网页源码的预处理⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯网页正文源码行中文密度的计算⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯”网页源码正文分块⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯去除伪网页源码正文块⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯辅助网页源码正文识别方法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯