1 / 49
文档名称:

基于潜在语义分析的文本分类算法研究.pdf

格式:pdf   页数:49页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于潜在语义分析的文本分类算法研究.pdf

上传人:2830622664 2015/11/2 文件大小:0 KB

下载得到文件列表

基于潜在语义分析的文本分类算法研究.pdf

文档介绍

文档介绍:录目摘要⋯⋯⋯..⋯⋯⋯⋯....⋯⋯⋯⋯..⋯⋯⋯⋯⋯.⋯⋯⋯⋯⋯.⋯⋯⋯⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯...⋯..国内外研究现状⋯⋯⋯⋯⋯⋯⋯⋯.⋯⋯⋯⋯⋯⋯.本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..文本分类相关技术⋯⋯⋯⋯⋯⋯⋯⋯.⋯.⋯.⋯⋯⋯文本预处理⋯⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..特征表示⋯⋯⋯⋯⋯⋯.⋯⋯⋯⋯⋯⋯⋯.⋯⋯⋯特征降维⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..分类算法⋯⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯分类过程及方法原理⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯琒本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.总结与展望⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..展望⋯⋯⋯⋯⋯⋯⋯⋯.....⋯⋯⋯⋯⋯⋯⋯⋯致谢⋯⋯⋯⋯⋯⋯⋯⋯⋯.....⋯...⋯⋯⋯⋯⋯⋯⋯⋯攻读硕士期间发表的学术论文⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯绪论⋯⋯⋯⋯⋯⋯⋯.⋯⋯⋯⋯⋯⋯⋯⋯..⋯...研究背景及意义..⋯⋯⋯⋯⋯..⋯⋯⋯⋯⋯⋯⋯....研究内容⋯⋯⋯.⋯..⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..论文结构..⋯..⋯⋯⋯⋯......⋯⋯⋯⋯⋯.⋯⋯⋯特征选择⋯⋯⋯⋯⋯⋯⋯.⋯⋯..⋯⋯⋯⋯⋯..特征提取⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.分类性能评估⋯⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⋯.,提取特征⋯⋯⋯.,提取特征⋯..算法设计⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⋯⋯⋯实验分析与评估⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.算法的实验及评估⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯惴ǖ氖笛榧捌拦馈讨论⋯⋯⋯.⋯⋯⋯....⋯...⋯⋯⋯⋯⋯⋯⋯⋯总结⋯⋯⋯⋯.......⋯⋯⋯⋯⋯⋯...⋯..⋯⋯..参考文献⋯⋯⋯⋯⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..第潜在语义分析潜在狄利克雷分配支持向量机.
基于潜在语义分析的文本分类算法研究摘要计算机应用技术专业硕士研究生罗乐指导教师李莉教授利用这些海量分布的信息,基于内容的信息检索和数据挖掘近些年逐渐成为倍受关注的领域。其中,文本分类,际跏切畔⒓焖骱臀谋就诰虻闹匾;。渲饕H挝是根据预先给定类另牡导拔牡邓裟谌荩ü暗贸龇掷嗄P停ü掷嗄型再判断或预测新的文档的类别。文本分类在自然语言处理与理解、信息组织与管理、内容知识工程和专家系统的文本分类模式有所突破,成为相关领域研究和应用的经典。但是近些年来,随着的兴起,社会网络,比如人人网、、⑿吕宋博等不仅变得非常流行,也成为现代人们的一种生活方式。而这些数据%以上为自然语言生上万维的向量,这对于分类算法来是太耗时,导致效率低下;而且相对于长文本来说,它的关键词少,特征稀疏,很难抽取有效特征,更难以挖掘特征相互之间的关联性;另外,用更是增加了文本中的同义词,使文本分类任务更难处理。本文鉴于社会网络中产生的文本存在的特点及其所带来的问题,对其展开研究。由于这些随着网络信息技术的发展,互联网数据及资源大幅增加,呈海量特性。为了有效地管理和信息过滤等领域都有着广泛的应用。世纪年代逐渐成熟的基于机器学****的文本分类方法,更注重分类器的模型自动挖掘和生成及动态优化能力,在分类效果和灵活性上都比之前基于文本,产生了海量用户产生数据涑庾啪薮蟮耐缈占洹I缁嵬缰械奈谋疽蛭S衅自身存在的一些特点,许多针对长文本的分类技术在其上并不能取得很好的效果,其主要存在三个突出特点:高维性、稀疏性、不规范性。换言之,这样的几千个短的文本都很可能产语不规范和流行语多,是网络文本的最大特点,也为这类文本挖掘带来了诸多难点。特别是短文本,由于字数较少,甚至一些会有字数限制,因此用语表达更为简洁简练,本来普通的长本文本,就会有部分的一词多义及同义词,而社会网络中的文本的缩略语及流行语的使用文本字数少、数量多,造成样本特征稀疏,特征维数较高,不能很好的抽取出文本关键特征。传统的方法采用关键词作为文本的特征,一方面将会在一定程度上丢失文本语义信息,即不会考虑到同义词及一词多义,导致分类准确率较低;另一方面,为了保证分类准确率,会使用上万维特征,这使得分类算法效率很低,换言之,分类效率和准确率不可兼得。针对以上两个问题,我们分别提出了两类算法:
一量皇皇量皇皇量量量量曼曼曼皇皇曼曼曼皇舅量罾量量曼量量皇量皇璺量舅鼍罾量皇量量量量曼皇关键词:,提出了聚类算法对间模型中添加了语义信息,提掷嗨惴ǚ直鹪诹礁鍪菁辖蟹掷唷实验结果表明,和两种方法既降低了数据维数,而且提高了分类准确率,完美解决了分类效率和准确率不可兼得的问题。服务进行聚类,然后用懈咝Х掷啵芯慷嗬喾掷嗟男饰侍猓使用星痹谥魈夥治觯弥魈庾魑O蛄靠占淠P椭械奶卣鳎聪嗟庇诙韵蛄靠西南大学硕士学位论文詈量
篊::.篽瑂琻‘.,%.琺,,“’,,,,瑃;,琲.
篖,琒,,,.琣琣珻珻西南大学硕士学位论文甇,,甀,:琾,;;
第绪论