1 / 85
文档名称:

潜在语义分析理论与在文本检索聚类中应用及研究.pdf

格式:pdf   页数:85页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

潜在语义分析理论与在文本检索聚类中应用及研究.pdf

上传人:1006108867 2015/12/20 文件大小:0 KB

下载得到文件列表

潜在语义分析理论与在文本检索聚类中应用及研究.pdf

相关文档

文档介绍

文档介绍:上海大学
硕士学位论文
潜在语义分析理论及其在文本检索与聚类中的应用研究
姓名:杨翠
申请学位级别:硕士
专业:情报学
指导教师:山石
20080101
摘要潜在语义分析琇且恢肿匀语言信息提取和再现的理论方法,它的原理是通过对大量的文本集进行统计分析,从中提取出词语的上下文含义。它同向量空间模型类型类似,采用空间向量表示词汇和文本,并进行纸猓畚叙述了潜在语义分析的基本理论方法,然后通过实例说明谛息检索中的应用,并通过分析结果中文本间、词汇间的相似度的变来说明谛畔⒎掷嘀械闹匾R庖濉本文对潜在语义分析模型进行了系统的研究,包括奇异值分解,通过数学中的奇异值分解来分析文本集中各个词汇之间,各个文本之间,文本与提问式之间的关系,同时本文研究和探讨了潜在语义分析模型在文本聚类中的具体应用和实现,包括文本间和词汇间的相似度的度量。本文对采用潜在语义分析模型的聚类效果进行了相应的研究分析,给出了聚类操作方法和试验结果,以及对实验结果的具体分析。关键词:信息检索;文本聚类;潜在语义分析;奇异值分解
,,;:籨;海人学硕学位论文,..琲,,琤瑃...
签名:—缉埠导师签名:兰垃日期:期:竺塑、原创性声明本论文使用授权说明本人声明:所呈交的论文是本人在导师指导下进行的研究工作。除了文中特别加以标注和致谢的地方外,论文中不包含其他人己发表或撰写过的研究成果。参与同一工作的其他同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。签名:本人完全了解上海大学有关保留、使用学位论文的规定,即:学校有权保留论文及送交论文复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部分内容。C艿穆畚脑诮饷芎笥ψ袷卮斯娑¨
第一章绪论言潜在语义分析提出背景引众所周知,当今社会麓τ谝桓鲂畔⒈ǖ氖贝蘼畚颐堑墓ぷ骰故巧都离不开对这些信息及时、高效的利用,因此探寻有效利用这些信息的方法成为一种趋势。随着计算机技术和信息技术的发展,尤其是万维网的广泛应用,人们计算机的智能处理技术成为提高效率的有效途径,在所有广泛应用的信息技术本文介绍的潜在语义分析,它的基本原理是将每个文本视为以词汇作为坐标系的空间中的一个点,就像似坐标中各个点之间存在一定的关联一样,文本中的分布也不是随机的,即存在某种潜在的语义。同样地,也将每个词汇视为以文档为坐标系的空间中的一个点。潜在语义分析方式试图采用统计的方法来寻找其中隐含的语义关系。煌谝酝南蛄靠占淠P中文本的高维表示,它的显著的优势在于它实现了将文档的高维表示投影在低维的潜在语义空间中。另外椒ɡ糜镆褰峁估幢硎疚谋竞痛驶悖庋梢源锏饺〕鲈肷托畔过滤,目的是为了化简文本高维的向量表示。随着计算机技术的发展,信息检索技术也得到了极大的发展,经历了从传统的基于词汇的主题词检索到自然语言检索的发展过程。传统的向量空问模型采用可以获取的信息数量更是迅猛增长。然而面对这些海量而繁杂的信息资源,基于中,其中高效、准确的信息表示方式是各种后续智能处理的重要基础。词与词之间也存在某种关联,并且认为包含语义的文本出现在这种空⑷認中,它的一汉H搜Ч薼:学位论义
潜在语义分析理论及应用研究概况法试图将词汇和文本之间的相关关系和词汇与文本之恻的语义关系均考虑其中,当传统的基于独立关键词索引匹配的信息检索方法已不能较好的解决文本中各词汇之间的关联性问题,和自然语言表达中存在的一个概念可使用若干词汇自动标引技术为文本提供标引词,然后系统在数据库中进行提问洲汇和预存的文本关键词的自动匹配工作,若两者相符的文本则被枪出。然而事实表明这种通过词汇简单匹配检出的结果并不是最优的,其原因在于,该系统无法分辨自然语言的语义模糊性,例如表达一个概念可使用的词汇往往有若干个,同时多数词汇的含义又都不是唯一的,向量空间模型只考虑了标引词汇本身,其他的成分并没有被利用,所以在这种情况下计算检索提问词汇和文本的关联度,势必会严重影响衡量检索效果的查准性和查全性两个指标。上面提到词汇间的同义性和单个词汇的歧义性,是造成检索结果不理想的主要原因。向量空间模型显然无法满足检索需求,因此,国外的~些数学、情报学,计算机科学等很多领域研究人员开始一起探索一种智能的信息检索方法,即潜在语义分析方法。潜在语义分析方法在向量空间模型基础之上发展而来,是其理论延伸,该方辅之以运用奇异值分解来处理这些语义关系。且桓鐾耆远姆椒ǎ幼远暌郊焖魈嵛势ヅ涠伎梢宰远已被广泛应用于信息检索、文本聚类等领域中,本论文即从该两方面进行详尽的理论阐述和实践论证。表达,同时多数词汇的含义又都不唯一的现象的存在,这种方法逐渐暴露出的问上海人学硕学位论文
产生背景和基本理论,特别对其中的重要理论部分一奇异值分解做了详细的介杂志,该文着重探讨了潜在语义分析方法的更广阔的应用,对潜已经开始研究潜在语义