文档介绍:藏文自动分词系统的设计与实现∗
陈玉忠李保利俞士汶
{degai,libl,yusw}***@pku.
./
(北京大学计算语言学研究所北京 100871)
摘要:藏文自动分词系统的研制目前在国内仍是空白。本文从四个方面详细报告了书面藏文
自动分词系统的具体实现过程,内容包括系统结构、分词知识库的组织与实现以及分词策略、
算法设计及其详细的自动分词过程实例。文章最后给出了实验结果,结果表明系统具有较高
的切分精度和较好的通用性。
关键词:格助词、接续特征、藏文、自动分词
中图分类号:TP391
the Design and Implementation of a Tibetan Word Segmentation System
CHEN Yu-zhong
LI Bao-li
YU Shi-wen
(Institute putational Linguistics, Peking University, Beijing 100871, China);
Abstract: Word segmentation for Tibetan has not been well studied yet. This paper
reports a Tibetan word segmentation system that we designed and implemented.
Several issues about the system are explained, which include system architecture,
knowledge bases, segmentation strategy, and algorithms. In preliminary experiments, the
system demonstrates higher accuracy and domain independency.
Key words: Case-auxiliary Word, Continuous Feature, Tibetan Word Segmentation
1、引言
随着对语言文字信息处理研究工作的不断深入,藏文信息处理技术也从字信息处理逐步
转向语言信息处理。与汉语、日语等语种的信息处理一样,藏文自动分词(Tibetan Automatic
Word Segmentation)是藏文信息处理中一项不可缺少的基础性工作。
一般从处理过程来看,我们可以把自动分词看作是用计算机自动识别文本字符流中的词
并在词与词之间加入明显切分标记1的过程。从应用需求来看,自动分词的主要目的是确定
自然语言处理的基本分析单位,为进一步开展自动分析进而为实现机器翻译、篇章理解、自
∗
本文研究工作得到国家自然科学基金项目(合同号:69663001)和 973 项目(合同号:G1998030507-4)
资助,特此致谢。
作者陈玉忠,男,1963 年生,博士生,副教授,主要研究领域为机器翻译、藏文信息处理;李保利,男,
1971 年生,博士生,主要研究领域为中文信息处理;俞士汶,男,1938 年生,教授,博士生导师,主要研
究领域为计算语言学。
1