文档介绍:维普资讯
第卷第期计算机应用研究.
年月.
一种动态的汉字笔段提取方法
史伟,傅彦,陈安龙,周俊临
电子科技大学,成都
摘要:提出了一种笔段提取新方法,充分利用了撇笔段和捺笔段的轮廓规律,在提取笔段过程中动态改变寻
找方向,使提取正确率进一步提高。实验证明了算法的有效性,与传统笔段提取算法相比,正确率由.%提高
到.% 以上,为汉字识别创造了更有利的条件。
关键词:汉字识别;笔段提取;字符点阵
中图分类号: 文献标志码: 文章编号:—.—
, , —,—
& ,,
: ,.
、
. % .% .
:; ; —
方块汉字已有数千年的历史,也是世界上使用人数最多的系为基础,为便于叙述动态笔段提取算法的提取过程,先把描
文字,对中华民族灿烂文化的形成和发展有不可磨灭的功勋。述过程中用到的概念定义如下。
在当今的信息时代,让计算机自动识别汉字意义尤为重大。近定义字符点阵图像以×点阵取样,且用二值图像
些年,我国工作者对汉字的处理相继做了不少卓有成效的研究表示,设,表示图像中第行第列上的像素,则,
工作,但识别的正确率仍不能满足现实的需求。可表示为。
汉字识别的方法分为结构方法和统计方法,结构方法的优
点是对类别规模大、结构复杂、相似模式多的汉字识别效果较,薯篓,,⋯,Ⅳ
好,所以得到了广泛的关注和研究。采用结构方法识别汉字的定义点阵图像中被人们感知为横、竖、撇、捺四种基本
关键一步是提取基元,基元提取的正确率直接影响了汉字识别笔划之一的前景像素点集合称为笔段。
的正确率。结构方法中选择的基元可以是部件、笔划、笔段。定义集合所含元素数量为集合中包含
其中笔段是底层基元,部件和笔划可以由笔段组合而成。目,的像素点个数。
前,汉字笔段提取方法有细化法、轮廓信息法、数学形态法、小定义设点为集合之外的一个像素点,即隹,则
波分析法、行程长度法和段化法等。细化法可能造成图像畸点到集合的距离定义为与中所有点的距离的最小
变,难有很高的正确率,且比较费时;小波分析法还不够成熟,
值,即/一一
目前还没有高效的算法;轮廓信息法、数学形态法和行程长度
∈,,,⋯,Ⅳ。其中:、为点的横、竖坐标。
法对字体和字型的适应性较弱。
定义设集合。与满足。,则定义。与
段化法是基于点阵图像行列连通像素提取笔段,与上述方
的距离定义为集合。中的点与集合中点的距离的最小
法相比有自身的优点,对汉字的字体和字型变化的适应能力较
强。但传统的段化法在提取基元的正确率还有待提高,本文提值,即,√一一
∈,
出了一种动态笔段提取算法,主要目的是进一步提高提取基元. . ∈,,,⋯,。
的正确率,充分利用汉字笔段外围轮廓的一阶微分,发现其边定义合并集合。与得到的集合,:
界特征,在寻找撇笔段和捺笔段时动态调整查找优先级,而不定义为,即,∈或∈。
是简单地在。、。方向上查找。这与传统的方法相比有定义图像点阵中与像素点相邻的八个像素点构成
明显的优越性,使提取结果更切合实际。的集合,则称该集合为点的一邻域,记为。
如图所示,,,,,,,,
基本定义
,,尸~分别代表点的,。,。,。,。,。,
本文提出的算法