1 / 53
文档名称:

基于潜在语义分析的文本分类算法研究.pdf

格式:pdf   页数:53页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于潜在语义分析的文本分类算法研究.pdf

上传人:ds6573 2016/1/4 文件大小:0 KB

下载得到文件列表

基于潜在语义分析的文本分类算法研究.pdf

文档介绍

文档介绍:独创性声明本人提交的学位论文是在导师指导下进行的研究工作及取得的研究成果。论文中引用他人已经发表或出版过的研究成果,文中己加了标注。学位论文能弓l、签字吼训年歹月;"学位论文版权使用授权书本学位论文作者完全了解西南大学有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权西南大学研究生部可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后适用本授权书,本论文:口不保密,口保密期限至年月止)学位论文作者签名:呷巧、导师签名:毒嗣u签字目期:仂l3年5月弓f日签字日期:矽屿年么月2-日目录摘要???..????....????..?????.??IAbstract???.????.??????????...?..III第1章绪论???????.????????..?.....?????..???????....????????.??????.???.?..???????????....?..????......?????.???????????????????..5第2章文本分类相关技术????????.?.?.?????.?????????????..??????.???????.???????????????????..???????.??..?????..???????????????.??.????????????????.???????????.?.????????????????.14第3章分类过程及方法原理?????????????(LatentSemanticsAnalysis,LSA)提取特征???.(LatentDirichletAllocation,LDA)提取特征?..(SupportVectorMachine,SVM)????????????????????.???????????????????.26第4章实验分析与评估??????????????.+EM算法的实验及评估???????????+SVM算法的实验及评估??????????.???.???....?...????????????????????????.35第5章总结与展望???????????????..????.......??????...?..??..????????.....????????37参考文献?????.??????????????..39致谢?????????.....?...????????43攻读硕士期间发表的学术论文??????????????45基于潜在语义分析的文本分类算法研究计算机应用技术专业硕士研究生罗乐指导教师李莉教授摘要随着网络信息技术的发展,互联网数据及资源大幅增加,呈海量特性。为了有效地管理和利用这些海量分布的信息,基于内容的信息检索和数据挖掘近些年逐渐成为倍受关注的领域。其中,文本分类(textcategorization,TC)技术是信息检索和文本挖掘的重要基础,其主要任务是根据预先给定类另lJ(1abel)文档集及文档所属内容,通过学****得出分类模型,进而通过分类模型再判断或预测新的文档的类别。文本分类在自然语言处理与理解、信息组织与管理、内容信息过滤等领域都有着广泛的应用。20世纪90年代逐渐成熟的基于机器学****的文本分类方法,更注重分类器的模型自动挖掘和生成及动态优化能力,在分类效果和灵活性上都比之前基于知识工程和专家系统的文本分类模式有所突破,成为相关领域研究和应用的经典。但是近些年来,,社会网络,比如人人网、Facebook、***、新浪微博等不仅变得非常流行,也成为现代人们的一种生活方式。而这些数据80%以上为自然语言文本,产生了海量用户产生数据(UGC),充斥着巨大的网络空间。社会网络中的文本因为有其自身存在的一些特点,许多针对长文本的分类技术在其上并不能取得很好的效果,其主要存在三个突出特点:高维性、稀疏性、不规范性。换言之,这样的几千个短的文本都很可能产生上万维的向量,这对于分类算法来是太耗时,导致效率低下;而且相对于长文本来说,它的关键词少,特征稀疏,很难抽取有效特征,更难以挖掘特征

最近更新