文档名称：

文本分类中的关键技术的研究（可复制毕业论文）.pdf

格式：pdf 页数：53页

下载后只包含 1 个 PDF 格式的文档，没有任何的图纸或源代码，查看文件列表

如果您已付费下载过本站文档，您可以点这里二次下载

文本分类中的关键技术的研究（可复制毕业论文）.pdf

上传人:mkt365 2013/12/17 文件大小：0 KB

下载得到文件列表

文本分类中的关键技术的研究（可复制毕业论文）.pdf

相关文档

文档介绍

文档介绍：⑨中文摘要随着鷈拇蠊婺F占埃畔⒘康难该驮黾樱没бT谛畔⒑Q罄铮焖佟,Ⅺ呵№算法。经典惴ㄔ谖谋痉掷嘀斜硐殖隽私细叩姆掷准确、全面地找到所需要的信息,就像大海捞针一样困难。如何有效地组织和管理数据,方便人们的检索绾慰焖俚厍钟杏眯畔⒑臀抻眯畔如何从海量的数据中高效地获取有用知识绾温愀髦钟没У母鲂曰枨所有这些问题都成了人们面临的挑战性课题。文本分类是将自然文本根据内容自动分为预先定义的一个或者几个类别的过程。它作为处理和组织大量文本数据的关键技术,可以在较大程度上解决信息杂乱无章的问题,方便用户准确地定位所需的信息。在文本分类领域,有两个影响分类效果的主要因素,分别是特征选择算法和文本分类算法。特征选择主要是找出描述特定领域的相关词汇,去除影响分类效果的噪音词汇缧榇省⑿稳荽实,它可以大大减少特征集合中的特征数,提高系统运行的速度和分类准确度;而好的分类算法则是取得满意的分类效果的保证。臣屏.,是一种重要的特征选择算法,这种算法考虑了特征与类别出现的各种可能性,表现出了良好的分类效果和稳定性。但也存在着缺陷和不足,它对低文档频的特征项不可靠,而且不能说明词条和类别的相关性。本文根据臣屏克惴ù嬖诘恼饬礁鋈钡悖云浣辛烁慕岢隽送臣破德琒算法,实验结果表明,统计频率算法能够弥补这些不足,在文本分类中表现出了良好的分类效果。在文本分类领域,本文在阐述几种常见的分类算法后,重点分析了准确率,应用较为广泛。但是经典资躃值选择和训练文本分布的影响,使分类结果偏向于文本数较多的一类。本文对惴ń辛擞呕笛榻峁砻鳎基于统计频率及改进的惴芄患跎傺究舛苑掷嘈Ч挠跋欤纳屏朔掷关键词:文本分类;特征选择;牧遥粃臣屏【性能。硕士学位论文’’
輆‰鷈緀甦啪皅鷇锄眦鎐姗畂Ⅲ..筧肌曲齛絚゛咖肌响衄俩鹏西賄餷籱饥耐,椤辒Ⅱ。膃.’誯硒譱缸唱產猣甋鄍鮡琲胕遫弱..雒,:..騦Ⅱ,畁’痶篽痩甧,.,瑄瓸,
鷈墒咖·;抓鹏虎荩籆甴籹コ鷌韎篢甆巧阛琺【打恤∽.’,
⑨髀研究意义信息量的迅猛增加,增加了人们获取有效信息的难度,而且信息产生的速度远远超过人们收集信息、利用信息的速度,使得人们无法快速地查找到最新的信息,从而造成了时间、资金和精力的巨大浪费。面对网上海量的信息,传统的做法是对网上信息进行人工分类,并加以组织和整理,从而为人们提供一种相对有效的信息获取手段。但是,这种人工分类的做法存在着许多弊端,不仅耗费大量的人力、物力和财力,而且存在着分类性能不佳的问题。因此,如何有效的组织和管理数据,方便人们的检索绾吻钟杏玫男畔⒑臀抻眯畔如何从海量的数据中高效地获取有用知识绾温阌没У母鲂曰枨所有这些都成了人们亟待解决的问题。文本分类侵冈诟ǖ姆掷嗄P拖拢米匀挥镅员示的文本,根据其内容,自动地确定该文本所属的一个或多个类别。其实质是一个知识学习和应用的过程,首先,分类器根据学习每个类中若干样本的数据信息,总结出各个类别的规律性,并建立起判别公式和判别规则,这是知识学习过程;然后,在遇到新文本时,分类器根据总结出的判别规则,确定新文本所属的类别,这是知识应用的过程。文本分类技术在人们的生活中起着越来越重要的作用,并得到了空前的发展,在垃圾邮件过滤、邮件自动分类、网页搜索、网页分类、信息组织、信息推送、数字图书馆的数字化管理等领域具有极高的研究价值和广阔的应用前景。在文本分类中,把文本表示为向量空间的形式时,训练文本集中的特征项可能多达数万个。这些特征词中,只有少数词对实现正确的分类有贡献,而大多数词对分类并无贡献,且过多的特征词会导致样本统计变得更加困难,高维向量的处理具有极高的计算复杂度,极易产生“维数灾难奈侍狻R虼耍绾伪A裟切┒苑类起着重要贡献的特征,去除那些冗余的特征,以减少特征词总数,即如何进行特征选择,已成为一个日益重要的研究领域。臣屏猻珻且恢种匾5奶卣魈崛∷惴ǎ闹饕K枷胧牵认为词条与类别之间没有独立性,并可类比为一个自由度的植迹琙统计量的值越高,词条和类别之间的独立性越小,相关性就越强。这种算法考虑了特征与类硕士学位论文’’
⑨㈣、支持向量机国内外研究现状别出现的各种可能性,在实验中表现出了良好的分类效果和稳定性,但是也存在很多的缺陷和不足。本文对其优缺点进行详细分析,并提出改进以弥补其不足,最后,本文通过实验证明,改进的特征选择算法,能较大的提高文本分类性能。文本分类算法能建立从文档特征到文档类别之间的映射关系,是文本分类的核心问题。常用的方法有朴素贝叶斯鏴琋、琒Ⅷ取F渲蠯算法应用最为广泛,惴ǖ幕驹砦#焊黄4馕谋荆低吃谘盗芳姓业接胫钕似的鼋冢琄个近邻文档中多数属于哪一类,就把待测文档归为哪一类中。经典惴ㄒ蛭F渚哂兴悸贩浅<虻ブ惫郏子谑迪郑掷嘈Ч淮恚仿屎高,具有较强的稳定性,通过训练样本来自动学习