文档介绍:第 30卷第 1期计算机应用与软件 Vol
2013年 puterApplicationsandSoftware
UCM 算法及其在电子政务网页分类系统中的应用
李恒锐1 万杨亮2 周继华3
1(电子科技大学计算机科学与工程学院四川成都 610051)
2(95661部队自动化站重庆 400030)
3(重庆金美通信有限责任公司重庆 400030)
摘要针对大规模训练集的网页分类问题提出 UCM(UCandSVM)分类方法。UCM算法结合了支持向量机 SVM(SupportVec
torMachine)与无监督聚类 UC(UnsupervisedClustering)的特点,使网页分类既有较高的准确率,又有较快的分类速度。在训练阶段,
UCM算法利用 UC方法形成聚类中心;在分类阶段,UCM算法计算待分类网页与正例中心及反例中心的距离,若距离差较大,用 UC
分类,否则用 SVM分类。在电子政务网页分类系统中的应用表明,UCM网页分类算法在准确率方面远高于 UC,略高于 SVM;在分
类速度上,UCM介于 UC和 SVM二者之间,远大于 SVM。
关键词支持向量机聚类大规模训练集网页分类系统电子政务
中图分类号 TP391 文献标识码 A DOI:.1000
UCMALGORITHM ANDITSAPPLICATIONINEGOVERNMENT
WEBPAGECLASSIFICATION
LiHengrui1 WanYangliang2 ZhouJihua3
1(puterScienceandEngineering,UniversityofElectronicScienceandTechnologyofChina,Chengdu610051,Sichuan,China)
2(InformationStationof95661Troops,Chongqing400030,China)
3(municationCo.,LTD,Chongqing400030,China)
Abstract ThispaperpresentsUCM (UCandSVM),
advantagesofSVM (supportvectormachine)andUC(unsupervisedclustering),makesthewebpageclassificationhighlyprecisewithfaster
,,UCMcalculatesthedistancebetweena
e