1 / 64
文档名称:

面向领域文本的潜在语义分析研究(工商管理).pdf

格式:pdf   页数:64页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

面向领域文本的潜在语义分析研究(工商管理).pdf

上传人:zhangkuan14313 2015/10/2 文件大小:0 KB

下载得到文件列表

面向领域文本的潜在语义分析研究(工商管理).pdf

相关文档

文档介绍

文档介绍:南京理工大学
硕士学位论文
面向领域文本的潜在语义分析研究
姓名:郑翠翠
申请学位级别:硕士
专业:管理科学与工程
指导教师:甘利人;岑咏华
20100622
摘要关键词:文本信息处理传统基于词语独立性假设、原始高维词语特征表示和字面匹配方法的文本信息处理单元的正确语义表示,影响了检索、聚类、分类、相似度计算、关联挖掘等深层文针对传统文本信息处理存在的问题,本文引入了潜在语义分析���P停��维方法达到信息过滤和去除噪声的目的,实现原始“词语一文档矩阵�姆纸猓�竦�原始矩阵的降维近似逼近阵,从而将文档和词语的高维表示投影到低维的潜在语义空础上,本文阐述了潜在语义分析���P偷幕�舅枷牒驮�恚�氐阊芯苛嘶��理往往忽略了文本信息中所隐藏的语义结构,无法形成对文档、作者、研究结构等处本信息处理的效率、准确率和召回率。因此,探索一种有效的语义分析和表示技术,对于文本信息处理和挖掘有着重要的意义。图通过奇异值分解����肜肷⒎纸���以及非负矩阵分解���扔镆褰�间中,缩小问题的规模,得到不再稀疏的词汇和文档的低维表示,进而揭示出词汇��档��涞挠镆辶O怠�在对文本信息处理和潜在语义分析的国内外研究与应用的现状和问题的总结基����等的潜在语义分析实现方法、各种方法的数学原理以及实现过程,同时将这些方法与��却�秤镆宄煞痔崛》椒ń�斜冉希�哉庑┓椒ㄓτ糜谖谋拘畔⒋��的科学性进行了理论解释,弥补了相关方法研究在理论解释方面的不足。论文重点实现了基于��那痹谟镆宸治龃�怼U馐且恢衷诶砺劢馐汀⑿�屎途ǘ鹊确矫婢�嫌�异的方法,国内相关研究则较少,本文在此方法上的理论、实现和实验研究是一种有意义的尝试。然后,论文探索了基于潜在语义空间的领域文本信息处理的典型应用问题的方法与机理,通过对比试验、选择合适的评价模型研究了潜在语义分析处理在文本聚类中的应用相对于传统的文本聚类在效率、准确率、召回率等方面产生的本质差别。在实验研究的基础上,论文得出了一些有意义的结论,这些结论对于相关研究在方法选择、语义维度设定等方面有着一定的参考意义。潜在语义分析奇异值分解半离散矩阵分解文本聚类硕.�郝畚�面向领域文奉的潜稿:语义分析研究
琣�������������甋����������������,������������������������,������������,���������,���������������������,��������������������,�����������.�����瑃����琭��������瑂�������,����:����—����硕士论文���.��—��������琓���������,����琒�����瓵���,����������.���瓸���,�������甇���痶
谛占月屿声学位论文使用授权声明明本学位论文是我在导师的指导下取得的研究成果,尽我所知,在本学位论文中,除了加以标注和致谢的部分外,不包含其他人已经发表或公布过的研究成果,也不包含我为获得任何教育机构的学位或学历而使用过的材料。与我一同工作的同事对本学位论文做出的贡献均已在论文中作了明确的说明。研究生签名:南京理工大学有权保存本学位论文的电子和纸质文档,可以借阅或上网公布本学位论文的部分或全部内容,可以向有关部门或机构送交并授权其保存、借阅或上网公布本学位论文的部分或全部内容。对于保密论文,按保密的有关规定和程序处理。
髀�论文研究的背景随着互联网的快速发展和企业信息化程度的提高,文本信息的快速积累使信息检构等带来巨大的挑战。主要表现在:一方面,互联网和企业信息系统每天都产生大量目前,大多数文本处理研究和软件开发工作使用的是基于倒排或者后缀树的“文维表示,同时这种低维表示可以进一步地揭示出词汇�牡�之间的语义联系。要。这是因为领域知识表征的多样性�缤�濉⒔�濉⒍嘁宓�,使得传统基于词语独立性假设和字面匹配方法的文本信息特征索引、组织、检索、聚类、分类、相似度基于上述背景,本论文将尝试通过领域文本试验,分析潜在语义分析在语义识别��本论文的直接研究背景来源于总装部课题“面向领域文本信息处理的潜在语义分析及其应用研究���币苍从谖谋拘畔⒋�砹煊虻难芯肯肿春痛嬖诘奈侍狻�索、内容管理以及信息过滤等变得越来越重要和困难,同时也给企业、政府及科研机文本数据,这些文本资源中包含许多有用信息,有数据表明企业系统中的重要信息�%是以文本形式储存;另一方面,基于现有技术从海量、动态、异构的信息资源中获取潜在有价值的信息十分困难。因此,如何处理和利用这些文本型数据至关重要,文本信息处理相关研究应运而生。档词语映射”来建立信息组织模型,例如将文档表示成词语的向量。词语间的独立性假设在这些组织模型中广泛使用。尽管这个假设使