文档介绍:第卷第期计算机技术与发展. .
年月.
基于模板匹配的印刷维吾尔文字符识别研究
陈卿,袁保社,李晓,任宏宇,张建华
.新疆大学信息科学与工程学院,新疆乌鲁木齐;
.部队气象台,河南许昌;
.新疆公众信息产业股份有限公司,新疆乌鲁木齐
:维吾尔文字的连笔书写及字型变化的一些特征给识别带来一定的困难并会影响到识别的正确率。在分析了维吾
尔文单词的组词规律及其字型结构特征基础上,采用一种基于区域分割模板匹配的识别方法,通过建立标准维吾尔文字
母图像模板库,并与通过预处理所获得的待识别维吾尔文字母图像进行匹配。对一些相似度高且难区分的维吾尔文字母
则采用提取这些相似字符的附属笔画部分的图像并对其按笔画的连通性、交叉性以及形态等特征进行附属笔画判定的方
法来确定这些相似字符,从而较准确地实现了对维吾尔文印刷字符的识别。实验识别率达到% 。
关键词:印刷体;维吾尔文字;特征提取;模板匹配;字符识别
中图分类号:. 文献标识码: 文章编号:—一一
,—,,,—
.,,,;
. ,, ,;
. .,.,,
: .
, —
. .
.% .
:;;;;
引言汉字属于定宽字体,这些都给维文识别带来很大
维吾尔文是中国主要少数民族文字之一,开展的技术难度。
技术研究文中在研究了维吾尔文字符结构特征如图所
是中文多文种信息处理系统的迫切需要。目前国内成示基础上,提出了特征提取和模板匹配相结合的方
熟的印刷体汉字识别技术为的研究提供了法来进行识别,实验结果验证了其有效性。
很好的技术基础。
维文字母由主体笔画和附属笔画这两部分构
成⋯,维文字母一般具有独写、首写、中写和尾写●’▲『/’一
这四种不同书写形式,且维吾尔文字的书写规则√、√
是从右至左连续书写的⋯。此外,每个字母的长: 尾写字母;: 中写字母; : 首写字母;: 独写字母;
度和高度都不一样,属于不等宽字体不像汉字, 、和均为附属笔画;: 文字基线:和均为字母
组成的连通体;: 两字母之间的连接处;
图维文字符结构特征
收稿日期:一—;修回日期:——
基金项目:工信部。年度电子信息产业发展基金项目工信部财
字—符特何征提疋取
作者简介:陈卿一,男,硕士研究生,研究方向为中文信息处输入维吾尔文字符图像经过预处理以及字母切分
理袁保社,教授,研究方向为中文信息处理。后得到若干印刷体维吾尔文的字母图像,提取字母的
· · 计算机技术与发展第卷
宽高比、书写形式、附属笔画数以及环等特征信息可提. 环结构特征
高识别过程的准确率。判断字母中是否具有环结构川以及存在几个环
. 宽高比特征能更好地识别带环字母,在维文字母中具有环结构的
在印刷体字符中,不同字符的宽度或者高度通常字母有‘’、‘,’、‘岳’、‘’等。一次穿透从像素点
是不相等的,因此将待识别字母的宽高比作为特征之矩阵角度可以看作是黑点一白点一黑点这一遍历过
一对字母的识别具有一定价值。在提取特征时可以对
程,而黑点一白点一黑点一白点一黑点这一遍历过
每个字母对应的像素矩阵从上、下、左、右四个方向搜程则为二次穿透。
索来确定边界从而得到其高度和宽度,宽
高