1 / 50
文档名称:

基于潜在语义分析文本分类算法的研究.pdf

格式:pdf   页数:50页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于潜在语义分析文本分类算法的研究.pdf

上传人:hytkxy 2016/3/9 文件大小:0 KB

下载得到文件列表

基于潜在语义分析文本分类算法的研究.pdf

文档介绍

文档介绍:目录摘要???..????....????..?????.??I Abstract???.????.??????????...?..III 第1章绪论???????.????????..?...1 研究背景及意义..?????..???????....1 国内外研究现状????????.??????.1 研究内容???.?..???????????..3 论文结构..?..????......?????.???4 本章小结????????????????..5 第2章文本分类相关技术????????.?.?.???7 文本预处理??.?????????????..7 特征表示??????.???????.???7 特征降维????????????????..8 特征选择???????.??..?????..8 特征提取???????????????.10 分类算法??.??????????????13 分类性能评估??.???????????.?.13 本章小结????????????????.14 第3章分类过程及方法原理?????????????15 潜在语义分析(Latent Semantics Analysis,LSA)提取特征???.15 潜在狄利克雷分配(Latent DirichletAllocation,LDA)提取特征?..1 7 支持向量机(Support VectorMachine,SVM)???????19 算法设计?????????????.???25 本章小结????????????????.26 第4章实验分析与评估??????????????.27 LSA+EM算法的实验及评估???????????27 LDA+SVM算法的实验及评估??????????.30 讨论???.???....?...????????34 本章小结????????????????.35 第5章总结与展望???????????????..37 总结????.......??????...?..??..37 展望????????.....????????37 参考文献?????.??????????????..39 致谢?????????.....?...????????43 攻读硕士期间发表的学术论文??????????????45 基于潜在语义分析的文本分类算法研究计算机应用技术专业硕士研究生罗乐指导教师李莉教授摘要随着网络信息技术的发展,互联网数据及资源大幅增加,呈海量特性。为了有效地管理和利用这些海量分布的信息,基于内容的信息检索和数据挖掘近些年逐渐成为倍受关注的领域。其中,文本分类(textcategorization,TC)技术是信息检索和文本挖掘的重要基础,其主要任务是根据预先给定类另lJ(1abel)文档集及文档所属内容,通过学****得出分类模型,进而通过分类模型再判断或预测新的文档的类别。文本分类在自然语言处理与理解、信息组织与管理、内容信息过滤等领域都有着广泛的应用。20世纪90年代逐渐成熟的基于机器学****的文本分类方法, 更注重分类器的模型自动挖掘和生成及动态优化能力,在分类效果和灵活性上都比之前基于知识工程和专家系统的文本分类模式有所突破,成为相关领域研究和应用的经典。但是近些年来,,社会网络,比如人人网、Facebook、***、新浪微博等不仅变得非常流行,也成为现代人们的一种生活方式。而这些数据80%以上为自然语言文本,产生了海量用户产生数据(UGC),充斥着巨大的网络空间。社会网络中的文本因为有其自身存在的一些特点,许多针对长文本的分类技术在其上并不能取得很好的效果,其主要存在三个突出特点:高维性、稀疏性、不规范性。换言之,这样的几千个短的文本都很可能产生上万维的向量,这对于分类算法来是太耗时,导致效率低下;而且相对于长文本来说,它的关键词少,特征稀疏,很难抽取有效特征,更难以挖掘特征相互之间的关联性;另外,用语不规范和流行语多,是网络文本的最大特点,也为这类文本挖掘带来了诸多难点。特别是短文本,由于字数较少,甚至一些会有字数限制,因此用语表达更为简洁简练,本来普通的长本文本,就会有部分的一词多义及同义词,而社会网络中的文本的缩略语及流行语的使用更是增加了文本中的同义词,使文本分类任务更难处理。本文鉴于社会网络中产生的文本存在的特点及其所带来的问题,对其展开研究。由于这些文本字数少、数量多,造成样本特征稀疏,特征维数较高,不能很好的抽取出文本关键特征。传统的方法采用关键词作