1 / 86
文档名称:

人工智能课件.part4.ppt

格式:ppt   页数:86页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

人工智能课件.part4.ppt

上传人:cdsqbyl 2015/5/15 文件大小:0 KB

下载得到文件列表

人工智能课件.part4.ppt

相关文档

文档介绍

文档介绍:第 4 章单词与词组的处理与分析
对于机器翻译研究来说,本章的第一任务是要建立语言的机器词典, 这一机器词典是多语言的。例如各自的藏, 英, 汉语机器词库。
单词与词组的处理与分析, 对于汉语来说, 首先必须要进行单词的自动切分。自动切分歧义部分是解决的难点, 不但可能用到规则推理, 而且还可能用到语法分析, 语义用分析, 更详细的过程可以结合第六章等一起研究。
自动分词中要与词库中单词比较, 即大量使用检索操作; 分词以后两种语言对译首先是单词的对译, 也大量使用检索操作. 所以检索算法很重要, 当然, 它又与排序技术相关。
词语分类和兼类的分析与处理是本章研究的又一重点。
本章的最后将研究词处理的一些细节问题。
4 . 1 机器词典概述
人工翻译离不开词典,当然,机器翻译也离不开机器词典。机器词典也被称为电子词典,简称词典。机器词典的作用在机器翻译中是最重要的,因为做任何机器翻译工作都必须通过查机器词典来得到相关的翻译元素---单词和词组。如何有效的组织、建立机器词典,如何更好地利用机器词典中包含的各种知识,是一个值得深入研究的课题。
机器词典的作用:
(1)机器词典的好坏是更好的实现实用化机器翻译系统软件的障碍之一。现有的一些机器翻译系统在达到实用化阶段时往往因为机器词典规模的限制阻碍了性能的进一步提高。因为语言词汇是一个开放的集合,无论建立多么庞大的词典,都不可能穷举所有的词。而且,随着时间的推移,还会出现大量的新词。因此,只有尽可能的扩充机器词典的规模,才可能使机器翻译系统更实用,更会被更多的行业、更多的人所接受。
(2)机器词典是机器翻译的质量的关键,要达到机器翻译的全自动、高质量,就必须有一部信息丰富、易于使用的机器词典。一部好的机器词典不仅要有庞大的数量,而且要有尽可能高的质量,只要这样,才可能是机器翻译的质量更高。
(3)电子词典(机器词典)不仅可以用于机器翻译,而且也可以用在自然语言理解、自然语言处理诸多方面。因此,电子词典(机器词典)是大规模知识工程的基础工作,它可以为知识系统提供一个基本的知识源。
对于机器翻译系统来说,为了适应不同专业领域的翻译要求,需要配有大量的专业词汇。因此,机器翻译系统的词典又可以分为通用词典和专业词典两部分。如专门的缩略语词典、特殊字词典等等。还可以把通用词典再细分为名词词典、动词词典、成语词典等等。
机器词典的组织机构对于提高词语的检索速度是非常主要的。一定的组织结构形式和相应的算法相配合,可以节约存储空间,提高检索速度,从而提高机器翻译系统的整体翻译速度。
机器词典从存储形式来看,可以分为定长字段型、变长字段型和定变长混合型三种类型;从索引格式看,可以分为一级索引和多级索引等等。
词语的长短是不同的,例如,某些常用词的信息特别丰富,书本词典可以占满几页,而有一些词语却只要一行。这样,如果所有词语都使用定长字段,则必须依据最长词语确定字段长度,而相当多的短词语将浪费巨大的存储空间。所以,一般情况下一条词语的有关信息的存储都采用变长形式,这可以用链接技术实现。
5 . 2 自动分词
汉语自动分词是我国计算机科学研究的重要课题之一, 它是自然语言理解、自动翻译、电子词典等信息处理的基础性工件。所谓分词, 就是要把一句话, 一篇文章甚至一部著作中的词语逐个逐个的切分出来。汉语不象拼音文字那样有自然切分标志, 而且词语长短不一, 词语的定义也不统一, 语言学中对词的定义多种多样, 造成切分的多样性, 这也自然给自动分词的同一性带来很大困难。汉语中词语本身的词素、词、词组无明显的区分界限, 没有一个统一的标准, 许多东西都是凭经验和语感来划分。.这项工作如果全部交给计算机来作, 就没有那么简单了。
尽管计算机自动分词在诸多方面存在着许多困难, 但是由于自动分词是许多应用工作的第一步(也是自动翻译的第一步), 这就促进了研究的持续不断, 提出了不少方法, 它们各有优缺点, 也可能是基于特定环境的。
4 . 2 . 1 典型的自动分词方法
4 . 2 . 1 . 1 正向最大匹配法和逆向最大匹配法
正向最大匹配法是最早提出的自动分词方法, 它的基本思想是先取一句话的前六个字查字库, 若不是一个词, 则删除六个字的最后一个字再查, 这样一直查下去, 至找到一个词为止。句子剩余部分重复此工作, 直到把所有的词都分出为止。逆向最大匹配法也一样, 每次匹配不成功时去掉汉字串中最前面的一个字。
两法思路清晰, 易于计算机实现, 但由于试图用相对稳定的词表来代替灵活多变, 充满活力的词汇, 把词库搜索作为判词的唯一标准, 因而具有很大的主观性和局限性。另外, 这两种方法实际上否认了语言中的歧义现象。
在实际应用中, 方法有所变化。如下述算法我们初始不是取六个