1 / 3
文档名称:

潜伏语义分析的理论以及其应用.doc

格式:doc   大小:50KB   页数:3页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

潜伏语义分析的理论以及其应用.doc

上传人:小博士 2017/8/27 文件大小:50 KB

下载得到文件列表

潜伏语义分析的理论以及其应用.doc

相关文档

文档介绍

文档介绍:潜伏语义分析的理论以及其应用
ok3ais(1997)指出,一个问题是我们不知道某一个制约是否真正存在;少年儿童虽然假定相同的物体只有一个名称,但是他们所接触的语言是否也是这样呢?又如某一种制约的产生是逐步进化的,还是通过认知而起作用的一种普遍性制约?还有一个问题是,某些制约的存在和产生出于逻辑的需要,但这又是不够的,可以从3方面看:1)某一套制约是否逻辑上和语用上充分,也就是说使用了它们以后是否就能解决问题?例如儿童认为没有同义词,这在多大程度上能帮助他们学****词汇?2)和方法论有关,怎样才能获得前一个问题的答案?怎样知道某一些特定制约的组合应用到自然环境的输入时才能解决问题?3)怎样决定一个提出来的模型是否具有心理现实性?landauer认为要解决这些问题必须使用模拟的模型。而他和其他几个研究人员foltz、dumais、deerantic analysis,lsa)。这是一个多维数的线性组合模型,“这个模型只是一个普遍的学****机制,本身并不体现人类知识,但是它通过分析一个很大的自然语言文本语料库来生成一个足以体现词语和文本片段的相似性的表征。”

从潜伏性语义分析的角度看来,归纳就是减少维数(reduction of dimensionality)。landauer举了一个形象的例子,一个人站在高原上打电话告诉他的朋友三间房子的位置,a和b、a和c的距离都是5个单位,而b和c的距离则是8个单位。在他的朋友脑海里就形成一个两个维数的三角形。如果他继续补充说,这三间房子是在一条直线上,他的朋友就会说,他一定是看错了这三个房子的距离。a和b、,而b和c的距离应该是9个单位。因为在一个两维数的三角形里,其底边应该是其他两个边的和。这说明,减少维数可改善估算。在研究工作中,研究人员往往通过减少维数来降低计算的复杂性,即把数据作平滑化处理:简化数据并填补所缺的节点。在东京召开的联合国大学主持的混沌对科学和社会的冲击学术会议上,两个着名的混沌学专家feigenbaun和aihara就一致认为,人脑由100亿个神经元组成,而我们要对它的相互作用进行观察只能选取一个极低的维数。(注:这次大会的文集我国已由杨立、刘巨彬等译,刘式达、杜先之等校,湖南***出版,题为《混沌:对和社会的冲击》,两人的对话见该书394-395页。)在统计学中,这种减少维数的方法,例如因子分析、多维数量表也经常被采用,osgood(1971)在70年代所做的语义微分分析就用过因子分析。同样地,我们也可以把两个词的语义相似性表示为距离:距离越近,相似性就越强。假定两个词在一个语篇单位(短语、句子或段落)中出现的频率和它们的语义距离成反比例(频率越多,距离越近),那它们就和语义相似性直接相关。我们可以通过观察两个词在同一单位中出现的相对频率来估算出其语义相似性。因为人们进行交际时,都会使用一些基本成分(如词),使两个词语中存在某种相对的相似性。发送者会选择同一语义空间彼此相近的词,它们就会有不同的语义距离;而接收者则会按照它们在同一上下文中的相对频率来估算这些距离。但是自然语言中的词语数量极为庞大,而接收到的词语却数量极少,例如两个词的频率都是百万分之一,它们虽然有相关的意义,也不大可能会一起发生。可是如果我们的接收机制按照统计知识把接受