1 / 63
文档名称:

基于组合抽样技术的集成学习算法研究与应用.pdf

格式:pdf   页数:63
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于组合抽样技术的集成学习算法研究与应用.pdf

上传人:779277932 2012/2/8 文件大小:0 KB

下载得到文件列表

基于组合抽样技术的集成学习算法研究与应用.pdf

文档介绍

文档介绍:谨以此文献给在学业和生活中给予帮助过的老师,同学和家人刘国强
基于组合抽样技术的集成学习算法研究与应用学位论文完成日期:指导教师签字:答辩委员会成员签字:
铂胀学位论文作者签名:参幺签字日期:锄『/竹月习日学位论文作者签名参厶阩月研日学位论文版权使用授权书签字日期:和,辏掳既独创声签字日期:明成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其翅遗直基丝噩噩缱别直明的:奎拦互窒蚱渌逃沟难换蛑な槭国学术期刊馀贪电子杂志社”用于出版和编入《中国知识资源总库》,本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的他人已经发表或撰写过的研究成果,也不包含未获得用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。本学位论文作者完全了解学校有关保留、使用学位论文的规定,并同意以下事项:⒀S腥ūA舨⑾蚬矣泄夭棵呕蚧顾徒宦畚牡母从〖痛排蹋市论文被查阅和借阅。⒀?梢越宦畚牡娜ú炕虿糠帜谌荼嗳胗泄厥菘饨屑焖鳎梢采用影印、缩印或扫描等复制手段保存、汇编学位论文。同时授权清华大学“中授权中国科学技术信息研究所将本学位论文收录到《中国学位论文全文数据库》。C艿难宦畚脑诮饷芎笫视帽臼谌ㄊ导师签字:
,,。琷
合抽样技术的集成学习算法研究与应用摘要分类和集成学习是当今机器学习领域的主要研究内容。传统分练数据集各类样本的数目基本平衡和误分类代价相同等假设,性能评价指标,因此在解决不平衡数据集分类问题时大大降低了少数类的分类性能,模型的实际工程应用效果不佳。不平衡数据集往往具有少数类数据绝对或相对稀少、噪声数据干扰大、数据碎片多等特点,应用单一分类器难以实现准确分类。提升不平衡数据集分类性能的方法主要包括数据重采样、训练集划分、特征选择、代价敏感学习、分类器集成、单类学习等方法。本文通过实验分析单纯依赖数据层面或算法改进层面的方法都不能较高地提高少数类的分类性能。目前常用的戎夭裳椒ù嬖少数类分布稀疏、扩充数据盲目性、多数类信息损失等问题,等集成学习方法也存在多数类过拟合或分类器性能退化问题。所以,有效提高少数类的分类精度并且不影响分类器总体分类性能是一个值得深入研究的课题。本文从改善不平衡数据集的数据分布、适当的算法改进以及恰当的分类器性能评价等方面讨论,提出了将组合重抽样方法与改进算法相结合的分类器集成算法。该算法根据样本集内部分布特性,在爻檠方法的基础上自适应选择近邻,从而实现在合成少数类样本时减小少数类分布稀疏性对新样本的影响程度,改善训练样本集的不平衡度。由于算法的特点是在学习阶段根据分类器误差的大小统一调整样本权重,所以不适合解决不平衡数据集分类学习问题。本文针对不同类别的样本采用多种权重修改策略,有效防止了边界样本、噪声数据在学习时对分类器性能的恶化,提高了少数类样本的识别率。将所提出的算法在开源平台上实现,应用曜际菁的不平衡数据进行验证。实验证明在多项分类器性能指标上,算法都优于、约暗ヒ环掷嗟确椒ā本文创新性地应用这种组合抽样与集成学习方法来解决实际工程中的烟叶香型分类问题。实验证明,集成分类器在面对不平衡度较高的烟叶香型基于组合抽样技术的集成学习算法研究与应用
分类数据时表现良好,少数类分类错误率最低,而且多数类样本分类精度仍有~定提高。研究表明,以决策树为基分类器的模型还可以为用户提取出更有价值的规则。通过工程应用验证,该算法具有良好的鲁棒性和应用推广价值。关键字:不平衡数据集;重抽样;集成学习;分类;籄基于组合抽样技术的集成学习算法研究与应用
瑃,甌甀,,瓵琣,.瓸.,,..瑂,,珻,,甆.,,甌,
..,,,琓..㈣豻,.瑆甋..,瑆琲:,基于组合抽样技术的集成学习算法研究与应用