1 / 9
文档名称:

基于Kmeans聚类的XGBoost集成算法研究.docx

格式:docx   大小:250KB   页数:9页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于Kmeans聚类的XGBoost集成算法研究.docx

上传人:科技星球 2022/1/6 文件大小:250 KB

下载得到文件列表

基于Kmeans聚类的XGBoost集成算法研究.docx

文档介绍

文档介绍:基于Kmeans聚类的XGBoost集成算法研究
 
 
罗春芳 张国华 刘德华 朱定欢
摘  要: 针对分类问题中的模型泛化能力,提出了基于Kmeans聚类的XGBoost基分类器集成算法,以提升整体算法的泛化能力。首先,训练数据集获得多个XGBoost模型;然后,通过Kmeans算法对不同模型的实验结果聚类;最后,对每个分类簇中泛化能力最优的分类器进行集成。在对某公司实际分类问题中应用该算法,结果表明,该算法的泛化能力有很大程度的提升。
关键词: Kmeans聚类; XGBoost; 集成算法; 泛化能力
:TP391          文獻标识码:A     :1006-8228(2020)10-12-03
Abstract: Aiming at the model generalization ability of classification problem, a K-means clustering based XGBoost base classifier ensemble algorithm is proposed in this paper to improve the generalization ability of the whole algorithm. Firstly, training data sets to obtain multiple XGBoost models; then clustering the experiment results of different models with K-means algorithm; finally, integrating the classifiers with the best generalization ability in each cluster. The algorithm was applied to practical classification problems, the results show that the generalization ability of the algorithm is greatly improved.
Key words: K-means clustering; XGBoost; ensemble algorithm; generalization ability
0 引言
近年来,随着数据科学的不断进步,XGBoost(eXtreme Gradient Boosting)算法被商业、网络、股票分析、电子产品等领域广泛应用[1]。XGBoost是一种在梯度提升算法(GBDT)基础上改进的学习算法[2],其特点为复杂度低、并行效果好、计算精度高[3],但其泛化能力有待提升。本文选择Bagging多模型融合思想, 采用多个XGBoost基分类器,使得每个基分类器只拟合部分样本下的部分特征属性,然后用Kmeans聚类,进而提升其泛化能力。
其思路为:首先,抽取样本训练多个XGBoost基分类器模型,然后,采用Kmeans算法聚类多个基分类器模型中的实验结果,最后,集成每个分类簇中泛化能力最优的基分类器。
1 基于Kmeans聚类的XGBoost集成