文档介绍:第 30卷第 8期计算机应用与软件 Vol
2013年 puterApplicationsandSoftware
基于查询接口文本 VSM 的 DeepWeb数据源分类
石龙1 强保华1,2 谌超1 吴春明2
1(桂林电子科技大学计算机科学与工程学院广西桂林 541004)
2(西南大学计算机与信息科学学院重庆 400715)
摘要随着技术的快速发展,Web数据库数目庞大而且仍在快速增长。为有效组织利用深藏于 Web数据库上的信息,
需对其按领域进行分类和集成。Web页面上的查询接口是网络用户访问 Web数据库的唯一途径,对 DeepWeb数据源分类可通过
对查询接口分类实现。为此,提出一种基于查询接口文本 VSM(VectorSpaceModel)的分类方法。首先,使用查询接口文本信息构
建向量空间模型,然后通过典型的数据挖掘分类算法训练分类器,从而实现对查询接口所属领域进行分类。实验结果表明给出的方
法具有良好的分类性能。
关键词 DeepWeb 数据源分类向量空间模型数据挖掘查询接口
中图分类号 TP311 文献标识码 A DOI:.1000
DEEPWEBDATASOURCESCLASSIFICATIONBASEDONTEXT
VSMOFQUERYINTERFACE
ShiLong1 QiangBaohua1,2 ShenChao1 WuChunming2
1(puterScienceandEngineering,GuilinUniversityofElectronicTechnology,Guilin541004,Guangxi,China)
2(puterandInformationScience,SouthwestUniversity,Chongqing400715,China)
Abstract technology,alargenumberofWebdatabaseshavemushroomedandthenumberremains
inafast,itisnecessaryto
,the
,aclassificationmethodbasedontext
(VSM)byusingqueryinterfacetextinformationfirstly.
Thenthetypicaldataminingclassificationalgorithmisemployedtotrainoneormoreclassifiers,thustoclassifythedo