文档名称：

基于半监督学习的数据流混合集成分类算法.doc

格式：doc 大小：90KB 页数：8页

下载后只包含 1 个 DOC 格式的文档，没有任何的图纸或源代码，查看文件列表

如果您已付费下载过本站文档，您可以点这里二次下载

预览

下载此文档

基于半监督学习的数据流混合集成分类算法.doc

上传人:小雄 2021/5/24 文件大小：90 KB

下载得到文件列表

基于半监督学习的数据流混合集成分类算法.doc

相关文档

文档介绍

文档介绍：基于半监督学****的数据流混合集成分类算法
摘要：当前已有的数据流分类模型都需要大量已标记样本来进行训练，但在实际应用中，对大量样本标记的成本相对较高。针对此问题，提出了一种基于半监督学****的数据流混合集成分类算法SMEClass,选用混合模式来组织基础分类器，用K个决策树分类器投票表决为未标记数据添加标记，以提高数据类标的置信度，增强集成分类器的准确度，同时加入一个贝叶斯分类器来有效减少标记过程中产生的噪音数据。实验结果显示， SMEClass算法与最新基于半监督学****的集成分类算法相比，其准确率有所提高，在运行时间和抗噪能力方面有明显优势。
关键词：数据流；半监督学****集成分类；概念漂移；混合集成
中图分类号：TP18文献标识码：A文章编号：1009-3044 (2013) 34-7770-06
数据流分析和挖掘在数据挖掘和机器学****领域是一个具有挑战性的研究，它已经受到了计算机智能研究者的广泛关注［1-3］ o与传统的静态数据相比，数据流具有动态性、高维度、实时性、无限性、顺序性和高速到达等特点［4］,正是这些特点使得传统方法难以实现数据流的挖掘。而数据流分类是数据流挖掘的其中一种，它是从大量数据样本中提取知识和信息的过程，而这些样本中隐含的概念和知识可能随着时间和环境不断的发生变化，即存在的概念漂移［5］给研究带来了挑战。因此，一个高效的数据流分类算法需要在有限的时间和内存下以相当好的准确度完成任务, 并且能够自适应地处理概念漂移。
在已有研究中，解决概念漂移问题的方法概括起来有三种［6］：实例选择、实例加权和集成学****近年来研究最热的当属集成学****方法［7-9］, 它克服了运用滑动窗口方法参数难以确定的缺陷。尽管集成学****已经取得了相当客观的研究进展，但它是典型的有监督学****需要大量的类标数据进行训练学****而且标记数据是一个耗时又费力的工作，因此便有了近年来半监督学****的研究［10-12］,它通过引入未标记数据来提高分类器的泛化性能。可以说近年来集成学****和半监督学****的研究都有了新的突破，但将两者融合来改善分类性能的研究还是凤毛麟角。2002年Bennett等人［13］提出使用标记和未标记数据共同构造集成分类模型，文中主要运用 Boosting方法，它的缺点在于没有一种机制来控制对无类标数据标记的错误率；在文献［14］中Woolam等人融合半监督聚类和集成方法先将无类标数据进行标记，当标记数据占到一定比例时再对数据进行聚类，再运用类标传播技术为剩余无类标数据进行标记，最后更新集成分类器，这样当数据量很大时类标传播会耗费［。33)］的时间。
基于上述研究中存在的缺陷，该文将集成学****和半监督学****有效的融合，提出一种基于半监督学****的混合集成分类算法(Semi-Supervised learning Based Mixture Ensemble Classifier, SMEClass ), 由于弓|入未标记数据，使得集成分类器的准确性和泛化性都得到了改善，而且在对未标记数据进行标记时使用集成分类器和在数据块已有的类标数据集上训练的分类器一同进行多数投票，更增加了被标记数据的可信度。同时，在算法中也使用了概念漂移检测和噪声过滤的机制，以便能够更有效的适应含噪音和概念漂移的数据流分类。