1 / 12
文档名称:

2020年文本分类中的特征提取和分类算法综述.doc

格式:doc   大小:435KB   页数:12页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

2020年文本分类中的特征提取和分类算法综述.doc

上传人:梅花书斋 2020/2/20 文件大小:435 KB

下载得到文件列表

2020年文本分类中的特征提取和分类算法综述.doc

相关文档

文档介绍

文档介绍:文本分类中的特征提取和分类算法综述摘要:文本分类是信息检索和过滤过程中的一项关键技术,其任务是对未知类别的文档进行自动处理,判别它们所属于的预定义类别集合中的类别。本文主要对文本分类中所涉及的特征选择和分类算法进行了论述,并通过实验的方法进行了深入的研究。采用kNN和NaiveBayes分类算法对已有的经典征选择方法的性能作了测试,并将分类结果进行对比,使用查全率、查准率、,揭示特征选择方法的选择对分类速度及分类精度的影响。关键字:文本分类特征选择分类算法AReviewForFeatureSelectionAndClassificationAlgorithmInTextCategorizationAbstract:Textcategorizationisakeytechnologyintheprocessofinformationretrievalandfiltering,,,,suchasprecision,recall,,:TextcategorizationFeatureselectionClassificationalgorithm前言互联网技术的高速发展引起了信息量的爆炸式增长,面对庞大的数据信息,如何在大规模的文本异构信息中准确、快速、全面地查找到个人所需的特定信息,已经成为了一项具有非常重要意义的研究课题[1]。文本分类的主要功能就是对相关的文档集合进行类别的标签与分配,其主要依据是在文本训练过程中将那些已经被提前分配合理的作为类别标签的训练文档集和。作为自动信息管理的核心技术,人工智能与信息检索技术是文本自动分类的两大技术基础,在组织和管理海量文本信息技术领域中文本分类是一种非常有效的技术手段[1]。所以,对文本自动分类技术的深入研究有着非常重要的理论意义与实用价值。当前通常采用向量空间模型来描述文本向量[2]。然而,面对高维的文本特征,如果不进行降维处理,则会造成“维度灾难”,从而大大影响分类效果。特征降维是文本分类过程中的一个重要环节。特征提取和特征抽取是特征降维技术的两大类,相对于特征抽取方法,特征提取方法因其快速、简单、便捷的优点,在文本分类领域中得到广泛的应用。选择合适的文本表示模型、特征降维方法和分类器算法对文本分类的速度和精度有着至关重要的影响。本文主要采用NewsGroups语料库中的20news-18828数据源,使用kNN和NativeBayes分类算法对验证几种已有的经典特征选择方法,并将其分类结果进行比较,揭示特征提取算法对分类性能的影响。几种经典的特征提取方法文档频率(DF)文档频率是指在训练文档集中某词条出现过的文档总数[3]。文档频率特征提取方法的基本思想是:首先根据具体情况设定最小和最大的文档频率阈值,接着计算每个特征词的文档频率。如果该特征词的文档频率大于已设定的最大文档频率阈值或小于最小的文档频率阈值,则删除该特征词,否则保留。(式1-1)其中,表示词条在文档中出现的次数,表示文本的总词汇数。是一种最简单的词约简技术,常用于大规模的语料特征选择中。但其缺点是如果某一稀有词条主要出现在某类训练集中,能够很好地反应该类别的特征,但因低于某个设定的阈值而直接滤除掉,因此就可能影响文本分类器的分类精度。信息增益(IG)在文本分类系统中,信息增益算法通过统计某一个特征词在文本类别中是否出现的文档频数来计算该特征项对于文本类别的信息增益。该算法考虑了特征在文档中出现前后的信息熵之差,公式定义为[3]:(式1-2)其中,表示语料库中文档类别总数;表示类文档在语料库中出现的概率;表示包含特征的文档的概率;表示不包含特征的文档的概率;表示包含特征的文档属于类别的概率;表示包含特征的文档不属于类别