1 / 6
文档名称:

金属学报第21卷A辑总目次.pdf

格式:pdf   页数:6
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

金属学报第21卷A辑总目次.pdf

上传人:gd433 2016/6/16 文件大小:0 KB

下载得到文件列表

金属学报第21卷A辑总目次.pdf

文档介绍

文档介绍:张华平刘群 zhanghp ***@software. ict .ac. cn 中科院计算技术研究所 2002-5-28 2纲要?问题背景与难点分析?主要研究方法与相关系统?我们的研究思路—基于多层 HMM 的一体化方法?基于 N-最短路径的词语粗分?基于角色标注的未登录词识别?计算所中文词语一体化分析系统 ICTCLAS ?结论 3问题背景与难点分析?问题背景?汉语的书面语是按句分开的,词与词之间没有明确的分隔标记。?词是最小的能够独立活动的有意义的语言成分。?中文信息处理只要涉及句法、语义(如检索、翻译、文摘、校对等应用),就需要以词为基本单位。句法分析、语句理解、自动文摘、自动分类和机器翻译等,更是少不了词的详细信息。 4问题背景与难点分析 II ?分词的必要性物理学 physics products … price image body theory barber science understand reason school study credit student subject 物理学 physics physicist …… evidence 6 × 5 × 5 = 150 : 2 5问题背景与难点分析 III ?中文词语分析的主要难点–歧义?交叉歧义(86%): 结合成分子时?组合歧义(14%): 这个人手上有痣; 我们缺人手?全局歧义与局部歧义:乒乓球拍/卖/完了; 乒乓球/拍卖/完了; 我很/难过 6问题背景与难点分析 IV –未登录词问题?干扰作用克林顿对内塔尼亚胡说龚学平等领导?最终识别–多样性–复杂性–上下文干扰 7主要研究方法与相关系统?当前主要的研究方法–基于规则的方法?最大匹配法( Maximum Matching )正向、逆向、双向?最优路径( +词频选择)法(最少分词法) –基于统计的方法 (N元语法, HMM) –基于规则和基于统计相结合–其他的一些方法 (压缩,自监督,基于转移的错误驱动方法等) 8主要研究方法与相关系统 II ?当前主要的中文词语分析系统–哈工大统计分词系统–自动化所三元统计模型–清华大学 SEGTAG 系统?词典中的每一个重要的词都加上了切分标志?无条件切出 qk类词;完全切分 ck类词;其他无交叉歧义的切之,否则全切分。?"动态规划"和"全切分搜索+叶子评价"9主要研究方法与相关系统 I