文档介绍:技术在线齐忠琪:智能化中文机械分词组件的设计 95
.1671-
智能化中文机械分词组件的设计
齐忠琪
新疆师范大学教育科学学院乌鲁木齐 830053
摘要分词是计算机系统对自然语言处理的第一步,分词的方法与准确率将显著影响自然语言的处理效果。在
分析机械分词技术的基础上,提出构建智能化机械分词组件的思想,论述构建智能化中文分词组件的基本思路与
方法,指出智能化中文机械分词组件在中文信息处理领域中的应用前景。
关键词中文处理;机械分词;组件设计
中图分类号: 文献标识码:B 文章编号:1671-489X(2009)21-0095-02
Design of Intelligent Mechanical Segmentation Module for Chinese Word//Qi Zhongqi
Abstract The first step of natural language processing (NLP) puter is the segmentation
for word. It affects the effect of NLP evidently that which segmentation method is used
and what its precision is. In this paper, based on parison of monly used
segmentation methods for Chinese word, we propose the idea of building the intelligent
mechanical segmentation module. We present the basic idea and methods of the intelligent
mechanical segmentation module, and forecast its prospect of application in Chinese information
processing.
Key words Chinese language processing; mechanical segmentation of words; module design
Author’s address Education and Science Academy of Xinjiang Normal University, Urumqi, 830053,
China
文字是人类用来交际和学习知识的符号系统,在20世 产品开发成本低机械分词法的算法复杂度较低,实
纪80年代之前,人们对中文文字的认识与应用仅仅停留在以现起来较为容易,且有较多可供参考的成果。这样可以大
纸张为媒介的书面文字阶段。计算机技术和通信技术的飞速大降低产品开发成本。
发展,为中文文字的数字化处理搭建了一个全新的平台。但 分词词典构建难度低分词词典的构建与语料库和知
由于中文文字属于表意文字,且数量惊人,如何能让计算机识库的构建相比较为容易。目前有一