文档介绍:基于半监督学习的数据流分类方法黄树成1,2朱宇光2董逸生11(东南大学计算机科学与工程学院,南京210096)2(常州工学院计算机科学与工程系,江苏常州213006)(schuang6@)摘要在数据流上建立有效的分类模型具有许多应用。流数据的动态性给业界提出了两个关键问题:如何监测数据流的变化;一旦发生显著变化,如何高效地组织足够的训练数据,调整无效的模型。本文提出了一个基于半监督学习的分类算法,较好地解决了这些问题。设计了一种识别显著变化的可靠方法;提出了一个基于NaïveBayes的EM算法,利用较少的类标数据来扩大训练数据集,从而极大地降低类标数据的需求量。基于新的训练数据可以构建一个有效的分类器。实验结果证明了算法的优势。关键词数据流分类;显著变化;类标数据;半监督学习;基于NaïveBayes的EM算法。-supervisedLearningBasedApproachforClassifyingDataStreamsHuangShucheng1,2DonyYisheng11(puterScienceandEngineering,SoutheastUniversity,Nanjing,210096)2(puterScienceandEngineering,ChangzhouInstituteofTechnology,JiangsuChangzhou,213006):urringindatastreams,,asemi-,anEMwithnaï,;SignificantChanges;LabeledData;Semi-supervisedLearning;EMwithNaïveBayes