1 / 51
文档名称:

基于潜在语义分析文本分类算法的研究.pdf

格式:pdf   页数:51页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于潜在语义分析文本分类算法的研究.pdf

上传人:2024678321 2016/3/17 文件大小:0 KB

下载得到文件列表

基于潜在语义分析文本分类算法的研究.pdf

文档介绍

文档介绍:目录摘要???..????....????..?????.??I Abstract???.????.??????????...?..III 第1章绪论???????.????????..?...1 研究背景及意义..?????..???????....1 国内外研究现状????????.??????.1 研究内容???.?..???????????..3 论文结构..?..????......?????.???4 本章小结????????????????..5 第2章文本分类相关技术????????.?.?.???7 文本预处理??.?????????????..7 特征表示??????.???????.???7 特征降维????????????????..8 特征选择???????.??..?????..8 特征提取???????????????.10 分类算法??.??????????????13 分类性能评估??.???????????.?.13 本章小结????????????????.14 第3章分类过程及方法原理?????????????15 潜在语义分析(Latent Semantics Analysis,LSA)提取特征???.15 潜在狄利克雷分配(Latent DirichletAllocation,LDA)提取特征?..1 7 支持向量机(Support VectorMachine,SVM)???????19 算法设计?????????????.???25 本章小结????????????????.26 第4章实验分析与评估??????????????.27 LSA+EM算法的实验及评估???????????27 LDA+SVM算法的实验及评估??????????.30 讨论???.???....?...????????34 本章小结????????????????.35 第5章总结与展望???????????????..37 总结????.......??????...?..??..37 展望????????.....????????37 参考文献?????.??????????????..39 致谢?????????.....?...????????43 攻读硕士期间发表的学术论文??????????????45 基于潜在语义分析的文本分类算法研究计算机应用技术专业硕士研究生罗乐指导教师李莉教授摘要随着网络信息技术的发展,互联网数据及资源大幅增加,呈海量特性。为了有效地管理和利用这些海量分布的信息,基于内容的信息检索和数据挖掘近些年逐渐成为倍受关注的领域。其中,文本分类(textcategorization,TC)技术是信息检索和文本挖掘的重要基础,其主要任务是根据预先给定类另lJ(1abel)文档集及文档所属内容,通过学****得出分类模型,进而通过分类模型再判断或预测新的文档的类别。文本分类在自然语言处理与理解、信息组织与管理、内容信息过滤等领域都有着广泛的应用。20世纪90年代逐渐成熟的基于机器学****的文本分类方法, 更注重分类器的模型自动挖掘和生成及动态优化能力,在分类效果和灵活性上都比之前基于知识工程和专家系统的文本分类模式有所突破,成为相关领域研究和应用的经典。但是近些年来,,社会网络,比如人人网、Facebook、***、新浪微博等不仅变得非常流行,也成为现代人们的一种生活方式。而这些数据80%以上为自然语言文本,产生了海量用户产生数据(UGC),充斥着巨大的网络空间。社会网络中的文本因为有其自身存在的一些特点,许多针对长文本的分类技术在其上并不能取得很好的效果,其主要存在三个突出特点:高维性、稀疏性、不规范性。换言之,这样的几千个短的文本都很可能产生上万维的向量,这对于分类算法来是太耗时,导致效率低下;而且相对于长文本来说,它的关键词少,特征稀疏,很难抽取有效特征,更难以挖掘特征相互之间的关联性;另外,用语不规范和流行语多,是网络文本的最大特点,也为这类文本挖掘带来了诸多难点。特别是短文本,由于字数较少,甚至一些会有字数限制,因此用语表达更为简洁简练,本来普通的长本文本,就会有部分的一词多义及同义词,而社会网络中的文本的缩略语及流行语的使用更是增加了文本中的同义词,使文本分类任务更难处理。本文鉴于社会网络中产生的文本存在的特点及其所带来的问题,对其展开研究。由于这些文本字数少、数量多,造成样本特征稀疏,特征维数较高,不能很好的抽取出文本关键特征。传统的方法采用关键词作

最近更新

城市化与产业结构优化互动效应的统计研究的开.. 2页

2024年小班秋季学期工作计划班主任集锦 25页

2024年小班教案优秀10篇 23页

地域文化在信阳江淮生态农业观光园规划设计中.. 2页

2024年小班体育教案模板锦集五篇 8页

2024年小学运动会广播稿(精选15篇) 36页

2024年小学读书会比赛活动方案 11页

商会在公共服务提供中的作用——泉州商会的案.. 2页

哈尔滨市城市交通与住宅房地产开发协调发展研.. 2页

吐鲁番地区西瓜断根嫁接技术研究及优质砧木接.. 2页

同步辐射光源截面大小及不稳定性的测量的开题.. 2页

2024年小学生读稻草人个人心得体会 5页

可降解性糖响应型药物递送体系的合成及性质研.. 2页

变电站二次电压核相装置的研究与应用的开题报.. 2页

双曲拱桥承载能力评定的相关问题研究的开题报.. 2页

双Higgs模型下Bs→(π,K)V衰变过程的研究的开.. 2页

2024年小学生中秋节心得 7页

【剧本杀剧本介绍】无间旅途 1页

新中国史题库及答案六篇 95页

中小学研学旅行活动报备表格 3页

蛛网膜下腔出血教案 9页

《东京审判》台词 3页

毕业设计 毕业论文:工业设计 英文文献及翻译.. 34页

广东快乐十分在投注外挂软件 6页

全球50大变态网站(爽死!)——绝对诱惑!!!!!!!.. 5页

摇臂支架零件加工工艺及车10.5孔夹具设计 33页

生化检验室内质控及失控分析 47页