文档名称：

词义消岐.doc

格式：doc 页数：8页

下载后只包含 1 个 DOC 格式的文档，没有任何的图纸或源代码，查看文件列表

如果您已付费下载过本站文档，您可以点这里二次下载

预览

下载此文档

词义消岐.doc

上传人:顾生等等 2015/12/24 文件大小：0 KB

下载得到文件列表

词义消岐.doc

相关文档

文档介绍

文档介绍：Part1:完全无指导的词义消岐
词义消岐(WSD)的主要方法:
1 基于人工智能(规则)
2 统计词义消岐方法
(1)基于词典的方法
(2)基于语料的方法
a基于实例的方法
b基于统计的方法
c多种方法的融合
研究问题:
领域知识(语言学知识) 词典语料库机器学****方法数据稀疏特征提取
描述词语在各个词义下的合法使用规范,如词语的固定搭配(Collocations),可以用来生成选择约束集。
语料库的衡量标准:平衡性功能质量规模
增强语料算法(Bootstrapping Corpora Algorithms)
数据稀疏的主要原因:特征维数训练语料的规模。解决办法:降低特征维数增大语料的规模数学方法—数据平滑(建立语言模型的关键技术,加法平滑 Good-Turing估计 Jelinek-Mercer平滑 Katz平滑 Church-Gale平滑 Average-Count平滑)
特征提取需要考虑的问题:领域知识数据稀疏语料规模有无词义标记权重的计算方法。
权重的计算:1 统计频率——词频、共现频率 2 熵——最大熵 3 遗传算法 4 粗糙集
完全无指导的词义消岐方法
Sense tagging 上者仅在词义标注方面讲是不可能的
Sense discrimination 仅从词义区分角度来考虑是可行的
算法基本思想:
把含有歧义词的上下文分成若干组,从各组上下文中抽取特征信息,根据这些特征信息来区分歧义词.
问题模型
歧义词w,有K个词义:S1,……Sk, ……,SK
vj:和w(含有特定词义 Sk )在某一上下文中共现的特征词
含有歧义词的上下文:C1,……Ci, ……,CI
根据以上条件,通过EM模型估计两个条件概率 P(vj|sk)和P(sk)。
算法具体过程在PPT中。
Part2 基于向量空间模型的有导词义消岐
基于向量空间模型的有导词义消岐:义项矩阵上下文位置权重有导机器学****br/>优点:可以有效避免数据稀疏问题简洁高效
无导机器学****的词义消岐方法:双语对齐方法机器可读词典方法基于向量空间的词义识别基于向量空间和机器可读词典方法。(准确率不稳定)
有导机器学****的词义消岐方法:针对高频多义词词义消岐,是当前必须的方法。有:决策树决策表 Naive-Bayes 神经网络 Exemplar-Based Learning 最大熵方法等。
本方法中,多义词的每个义项和多义词的一个上下文均被形式化为向量空间模型中的一个点,分别被称为义项向量和上下文向量,通过计算多义词上下文向量与义项向量的距离,采用k-NN(k=1)方法来确定该多义词上下文向量的义项分类,完成词义消岐任务。
采用信息增益的方法量化上下文位置权重,以此确定义项矩阵上下文范围。
另外文中也提到了文档的形式化表示方法。
Part3
使用伪词可以避免有指导的词义消岐方法中的数据稀疏问题
有试验表明贝叶斯网络比神经网络更适合解决汉语词义消岐问题,但贝叶斯网络的抗噪声能力却明显逊色于神经网络。
语义消岐算法(SDA),采用计算词语相关性的方法判断词语语义分类,达到消岐的目的。词语相关性可以通过词语的语义相似度来计算,构造二维矩阵,两两计算语义相似度,其和最大的语义相似度就为各个词语所代表的具体语义。
Part4
杨老师的论文