文档名称：

暗网数据源分类算法的研究和实现.pdf

格式：pdf 大小：1,468KB 页数：73页

下载后只包含 1 个 PDF 格式的文档，没有任何的图纸或源代码，查看文件列表

如果您已付费下载过本站文档，您可以点这里二次下载

预览

下载此文档

暗网数据源分类算法的研究和实现.pdf

上传人:zhufutaobao 2021/12/2 文件大小：1.43 MB

下载得到文件列表

暗网数据源分类算法的研究和实现.pdf

相关文档

文档介绍

文档介绍：暗网数据源分类算法的研究和实现
作者简介：李亚，男，1987 年 12 月出生，师从成都理工大学黄地龙教授，
2013 年 7 月毕业于成都理工大学计算机应用技术专业，获得工学硕士学位。
摘要
Web 按照信息隐藏深度分为暗网（Deep Web）和浅层网（Visible Web）。
传统搜索引擎（如 BaiDu，Google 等）仅能索引到浅层网的页面上信息；暗
网即指在线填写表单并提交至后台服务器才能获得的页面。据 BrightPlant 的
调查得知暗网所蕴含的信息量是浅层网几百倍，同时信息的质量，领域专业
主题性都优于浅层网。基于这些特点，暗网数据适合进行相关的信息采集和
利用。但是，实际利用中，由于暗网信息分布广泛，规模大及其相关业务变
化迅速等特性，因此，有效数据集成分类、挖掘知识并加以利用还需要有大
量的研究工作，其中，海量暗网数据准确的分类是这些研究工作中重要研究
内容。
本文主要关注暗网数据源的分类，目前有对暗网数据进行集成利用的网
站都是采用手工方式进行分类，由于手工方式成本高，更新慢并且涵盖的类
别有限，所以如何摆脱手工分类的弊端，对各个数据源自动别类，规划所属
的类别，从而将暗网资源有效的进行整合一直是现在研究者的热门研究课题。
目前对暗网数据源分类相关的研究都是基于表单文本特征，并假设文本特征
之间没有关联。这与实际情况不符，并且相关的分类算法没有考虑训练样本
的分布情况，对一种分类算法在训练样本丰富时能取得较好的分类效果，但
是对训练样本稀疏情况下并不一定能取得很好的分类效果，针对以上的不足，
本文提出如下的改进方法。
本文首先研究了 Web 和搜索引擎相关内容，为暗网数据源分类提供了理
论基础和本论文研究价值的参考。对现有的暗网数据源分类算法加以研究，
提出了暗网数据源分类算法应该针对不同的训练样本分布情况提出不同的分
类策略，即考虑暗网数据源样本丰富和稀疏两种情况，解决了分类模型的适
用性问题。
通过统计观察得知，不同领域类别的数据源所包含的控件类型总体分布
存在很大差异，而同一类别的数据源在结构上有极大的相似性，本文提出在
暗网数据源特征提取阶段同时提取数据源文本信息和数据源结构信息的特征
提取方法，以充分利用数据源结构信息与领域类别之间的联系。
I
在数据源接口丰富的情况下，本文引入数据挖掘思想，挖掘特征之间的
频繁模式，挖掘特征之间的联系，克服了现有分类算法基于特征之间无关联
的假设，提出了改进的贝叶斯分类模型，并且在 TEL-8 数据集上对提出的分
类算法加以验证，通过与采用传统贝叶斯模型在相同实验数据下得出的实验
结果在 Recall，Precison 和 F-measure 指标上进行对比，证明本文提出的算法
的有效性。
在数据源接口稀疏的情况下，本文引入语义词典，客服了由于训练集稀
疏造成的数据源接口特征不足的弊端，提出了基于概念的特征空间模型，最
后提出了改进的基于语义的 KNN 分类模型，并且在相同的实验条件下验证本
文所提出的分类算法的有效性和准确性。

关键词：暗网数据源分类贝叶斯 KNN 语义数据挖掘 WordNet
II
Research of Deep Web classification and Realization
Introduction of the author: Li Ya, male, was born in December 1987, whose tutor was
Professor Huang Dilong. He graduated from Chengdu University of Technology with a
major in Computer Application Technology, and was granted the Master Degree in July,
2013.
Abstract
The whol