1 / 81
文档名称:

面向 Web 挖掘的主题网络爬虫的研究与实现.pdf

格式:pdf   大小:1,316KB   页数:81页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

面向 Web 挖掘的主题网络爬虫的研究与实现.pdf

上传人:ranfand 2021/3/23 文件大小:1.29 MB

下载得到文件列表

面向 Web 挖掘的主题网络爬虫的研究与实现.pdf

相关文档

文档介绍

文档介绍:代 号 10701 学 号 0922121518

分类号 TP3TP3TP39TP3TP3119991111 密 级 公开公开公开
题题题 ( 中中中、、、 英 文英文文 ) 目目目 面向面向面向WebWebWeb 挖掘的主题网络爬虫的挖掘的主题网络爬虫的研究与实现 研究与实现
Research and Implementation of Topic Web Crawler
Oriented to Web Mining

作 者 姓 名 张晓雷 指导教师姓名指导教师姓名、、、、职务职务职务职务 刘志镜 教授教授教授
学 科 门 类 工学工学工学 学科学科学科、学科 、、、专业专业专业专业 计算机机应用技术术
提交论文日期 二二二○⃕二○⃕○⃕○⃕一二一二一二一二年一月年一月
创新性声明
本本人声明所呈呈交的论文是我个人在导师的指导下进行的研究工作及取得
的研究成果果。⃞尽我所知,除了文中特别加加以标标注和和致谢中所罗列的内容以
外,论文中不包包含其他人已经发表或撰写过的研究成果果,也不包包含为获得西
安电子科技大学或其它教育机机构构的学位或证书而使用过的材材料。⃞与我一同工
作的同志对本本研究工作所做的任何贡献均已在论文中作了明确的说明并表示
了谢意。⃞
申请学位论文若有不实之处,本本人承担一切相关责任。⃞

本本人签名: 日期:



关于论文使用授权的说明
本本人完全了解西安电子科技大学有关保留和和使用学位论文的规定,即:
研究生在校校攻读学位期间论文工作的知识产权权单位属西安电子科技大学。⃞本本
人保证毕业离校校后,发表论文或使用论文工作成果果时署名单位仍然为西安电
子科技大学。⃞学校校有权权保留送交论文的复印件,允许查查阅和和借阅论文;学校校
可以公布论文的全部或部分内容,可以允许采用影印、⃝缩印或其他复制制手段
保存论文。⃞
(保密的论文在解密后遵守此规定)
本本学位论文属于保密在 ____ 年解密后适用本本授权权书。⃞

本本人签名: 日期:
摘 要
摘 要
随着互联网的迅速发展,越越来来越越多的信息资资源以网络为媒介呈呈现在人们面前前,
而通过搜索引擎获取生活、⃝生产所需的信息资资料也开始成为人们掌握资资讯的主流
方式之一。⃞但是由于 Web 信息资资源的爆炸式增长及其半结构构化化、⃝实时性、⃝异构构性
和和离散性等的特点,如何对 Web 资资源进行挖掘分析析、⃝提取人们需要的特定主题的
信息,已经成为一项重要的研究课题。⃞
本本文的研究内容是基于企业竞争情报、⃝面向 Web 挖掘的主题式搜索,在介绍
了课题的研究背景和和现状之后,着重讨论了 Web 挖掘和和主题搜索引擎的核心技术术。⃞
具体的研究工作如下:
主题网络爬虫:综合分析析了现有搜索引擎的网络搜索算法,改进了相关的搜
索策略,提出了一种非贪婪遗传搜索算法。⃞
Web 文档分析析:本本文利用 HTML Tidy 工具将 Web 文档转换为其对应的树树型结
构构,然后根据用户的需求利用不同的遍历算法提取相关的信息;爬虫系统对网页
的正文内容进行提取和和分词之后,采用经过改进的特征项权权重计算方法建立文本本
的特征向量。⃞
主题相关性评价:在利用向量空间模型对网页正文内容进行主题相关性评价
的基础上,系统结合超超链接的锚文本本、⃝自身字符串和和它所在的网页对其进行了主
题相关性的计算。⃞