文档介绍:北京大学
博士学位论文
汉语语料库的
短语自动划分和标注研究
姓名: 周强
学号: 19308803
系别: 计算机科学和技术系
专业: 计算机科学理论
研究方向: 计算语言学,机器翻译
导师: 姚天顺教授,俞士汶教授
二○○二年九月十三日
北京大学博士学位论文
汉语语料库的短语自动划分和标注研究
摘要
作为汉语语料库多级加工处理的一个重要环节,汉语短语自动划分和标注技术的研究具
有双重意义:一方面,它为构建大规模的汉语树库提供了强有力的支持;另一方面,它也很
好地推动了对现代汉语短语结构和功能的深入研究。本文在这方面进行了比较深入的探索,
取得了以下几项研究成果:
1). 提出了一个汉语短语句法标记集,它以短语描述为基础,兼顾了准短语组合和句子
及句群类型,覆盖了词-->短语-->句子-->句群之间的绝大多数语法单位,可以对真实语料
句子分析中所遇到的大部分句法成分进行很好的标注处理。
2). 总结了一个汉语短语划分和标注处理规范,对一些多切分结构和歧义组合的分析方
法进行了规范描述,从而较好地保证了自动分析和人工校对的一致性。
3). 提出了一个人机互助的语料加工处理模型,它将标注语料库的构建和自动分析技术
的探索有机地结合起来,通过利用基于规则、基于统计和机器学习等多种处理技术,充分发
挥了标注语料库的统计数据、人的丰富的语言学知识和自动习得的知识的各自处理优势,达
到了最佳的整体处理效果。
4). 设计了一个用于汉语短语边界自动预测的统计计算模型。利用两种不同的计算方法,
此模型可以得到单界定输出和多界定输出两种预测结果。进一步通过基于自动习得和人工总
结规则的界定调整,可以为后续分析提供很好的预处理数据。
5). 提出了一个括号匹配控制算法,其间可以通过多层次的标记确定方法同时完成短语
的初始标注,而基于特殊结构短语和标点符号的匹配区间限制机制的使用,又可以降低算法
的复杂度,大大提高复杂句子的分析效率。
6). 设计了一个自动排歧概率评分模型,通过统计优先和规则优先相结合的处理,可以
较好地排除短语自动分析中遇到的各种歧义现象。
7). 实现了一个汉语短语自动划分和标注处理系统,可以对经过正确切分和词性标注处
理的汉语句子进行自动分析,得到准确度较高的短语划分和标注结果。
目前的实验结果已显示出此项研究所具有的较好的应用前景,在此基础上,还可以进一
步进行基于合一的汉语概率语法的自动推导、汉语谓词—论元关系的自动标注以及汉英双向
机器翻译等课题的研究。
关键词:Viterbi 算法,Forward-backward 算法,SCFG 模型,短语分析器,语料库加工,
计算语言学
- I -
摘要
Phrase Bracketing and Annotating on
Chinese Language Corpus
ABSTRACT
As an important stage of multilevel Chinese corpus processing, the research of automatic
phrase bracketing and annotating technique has twofold significance: First, it provides
powerful support for constructing a large-scale Chinese treebank. Second, it gives impetus to
the deepgoing research on the structures and functions of contemporary Chinese phrases.
In this dissertation, the author makes a thorough study of this problem, and obtains the
following achievements:
1). Propose a syntactic tagset for Chinese phrases, which covers most Chinese
grammatical units, such as word, phrase, sentence and sentence group. Us