1 / 7
文档名称:

语义分析在水环境领域的应用.docx

格式:docx   大小:17KB   页数:7页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

语义分析在水环境领域的应用.docx

上传人:Alphago 2022/7/8 文件大小:17 KB

下载得到文件列表

语义分析在水环境领域的应用.docx

相关文档

文档介绍

文档介绍:2
语义分析在水环境领域的应用
1绪论
潜在语义分析(LatentSemanticAnalysis,简称LSA)是一种基于潜概念的信息检索技术。LSA不需要预设基础学问、语义网络、词法、文法等信息,通过简洁的数学方法实现2
语义分析在水环境领域的应用
1绪论
潜在语义分析(LatentSemanticAnalysis,简称LSA)是一种基于潜概念的信息检索技术。LSA不需要预设基础学问、语义网络、词法、文法等信息,通过简洁的数学方法实现对大规模的“词汇—文档”矩阵进行降维,进而完成对大规模文档的高效的在语义基础上的信息检索。依据上述优点以及水环境的特点,本文通过对环境领域内文档数据的特点,提出一种改进的LSA算法,用以提高水环境领域文档内容的查准率与查全率。
2LSA理论
LSA主要依靠于传统的向量空间模型,但在传统的向量空间模型基础上,将高维的表示投影在潜在语义空间中,从而体现文档和词语之间的潜在语义关系。传统的LSA实现过程如下:(1)通过将已有的文档与词语相关联,生成一个“词汇—文档”高阶稀疏矩阵,该矩阵包含了词汇的词频信息。(2)对生成的权重矩阵进行奇异值分解(简称SVD)并确定潜在语义空间。对于权重矩阵A是一个m行n列的矩阵。有如下分解因式:上式中U、V表示矩阵A的左右奇异值向量,U表示m行n列的正交矩阵,V表示n行n列的正交矩阵。通过求矩阵A的近似矩阵将原始的高维稀疏矩阵映射在低维的空间中,便利后续的计算以及精确率的提高。(3)依据词汇列表以及查询文本生成查询向量q,查询向量在潜在语义空间中的坐标计算公式如下:。取诞生成矩阵X中文档i的列向量di并计算该向量在潜在语义空间中的坐标。因此,计算出全部文档与伪文本的向量夹角,并设定阈值,筛选相像文档。
3
3改进LSA算法
本文提出了一种改进的LSA算法,通过改进权重计算方法以及记录词语消逝位置的信息,更加精确的表达了词语所表现出的语义信息,其流程如图1所示。
,通过创建水环境高频词典及停用词表对水环境相关文档实现文本预处理。(1)筛选水环境领域词典中属于水环境领域的专业词语;(2)接受中文分词工具实现对高频水环境词语的统计,将统计结果加入水环境高频词典中;(3)依据统计结果实现停用词表的补充。
,构建“词汇—文档”中间矩阵。传统的LSA过程中,生成的权重矩阵中记录了用于对词汇消逝频率的信息,也忽视了词汇的位置信息,降低了特殊词汇在文档中的权重。不利于词汇表达文档的语义信息。因此,本文依据所争论对象的具体特征,针对词汇消逝的不同位置所代表的重要程度的不同进行赋值,以实现更精确的表达词汇在辨别文档类型过程中的作用。首先,本算法将标题中消逝的词汇权重定义为3,文档中小标题中消逝的词汇权重为2,正文中消逝的词汇权重为1。其次,定义关键词表,消逝在关键词表中的词汇重要性等同于消逝在标题中的权重。最终,确定权重,权重计算公式中的词频信息计算表达式改进如下:式中的tij表示词语i在文档j的标题中消逝的次数,stij示词语i在文档j的小标题中消逝的次数,ctij表示词语i在文档j的正文中消逝的次数。
4