1 / 72
文档名称:

潜在语义分析理论分析及其应用.docx

格式:docx   大小:2,623KB   页数:72页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

潜在语义分析理论分析及其应用.docx

上传人:wz_198613 2018/9/3 文件大小:2.56 MB

下载得到文件列表

潜在语义分析理论分析及其应用.docx

文档介绍

文档介绍:上海人学硕士学位论文
摘 要
随着计算机技术和信息技术的不断发展,尤其是互联网技术的日新月异,使得人们能获得信息成几何级飞速增长。但是面对着这些浩如烟海而又纷繁杂乱的信息资源,依靠人工的分析标引,甚至是单纯的匹配检索技术已经无法满足日益增长的变化的用户需求。从而需要计算机的智能处理技术来提高查找有用信息的效率,其中高效、准确的信息表示方式是各种后续智能处理的重要基础。
基于文本关键词的向量空间模型(VSM)对信息检索中的文本采用向量表示方法,为计算机处理文本信息提供了良好的表示方式。但是这种关键词的表示方法是基于词间关系相互独立的假设下,而在现实中往往同义词,近义词大量存在,同时忽视上下语境孤立地看待文本内容,势必影响查询结果的准确性和完整性。
本文所论述的潜在语义分析(Latent Semantic Analysis,简称LSA)通过数学中的奇异值分解(Singular Value position,简称SVD)来分析文本集中各个词汇之间,各个文本之间,文本与提问式之间的关系,是一种产生关键词一概念(语义) 之间映射规则的方法。LSA认为词语在文本中的使用模式内存在着潜在的语义结构, 同义词之间应该具有基本相同语义结构,多义词必定具有不同的语义结构。LSA通过提取并量化这些潜在语义结构,进而消除同义词、多义词的影响,提供文本表示的准确性。而随后又出现的PLSA(Probabilistic Latent Semantic Analysis)对基于奇异值分解的LSA又进行了统计学极大似然估计重新解释。LSA最初应用在文本信息检索领域,它有效地解决了同义词、多义词问题,随着应用领域的不断拓展,LSA在信息过滤、跨语言检索、认知科学和数据挖掘中的信息理解、判断和预测等众多领域中得到了广泛的应用。
本文的创新之处是:采用奇异值分解数学方法对文本集进行潜在语义分析,对
V
上海大学硕j‘学位论文
文本与提问式,文本与文本,词汇与词汇之间进行比较分析,用F范数对文本集降维程度进行度量,并尝试对潜在语义分析降维后的文本和词汇进行聚类分析。
关键词:潜在语义分析,潜在语义索引,奇异值分解,空间向量模型
。l:海大学硕I‘学位论文
ABSTRACT
With the continuous development puter science and information technology especially the] technology is changing quickly;the information that people could acquire has been increasing when we ale facing、Ⅳitll these tremendous
amount of vast,numerous plicated information sources,it’S difficult to meet the
of subsequent intelligent matching process.
The Vector Space Model fvSM)relies on the key word of the document,and employs the vector to present the document in the information model offers a fine presentation model puter to deal with document key word
presentation model is base on the hypothesis that the relations between the words are all independent,but there are great amount of the synonymy and polysemy phenomena in
reality,and ignoring the contextual content would influence the precision and recall of the inquiry results.
The Latent Semantic Analysis,this paper discusses,provides a means of creating the mapping rule of key word—— by using the truncated Singular Value
position