文档介绍:西北工业大学硕十论文
摘要
文字是人类信息交流的主要载体之一。随着计算机、信息技术的高速发展,使用计算机
处理并识别文字信息也就成为了一个非常重要的研究领域。手写体汉字识别技术是模式识别
研究领域的一个重要分支,是计算机智能接口的重要组成部分。它涉及模式识别、图像处理、
数字信号处理、人工智能、模糊数学、信息论、计算机等学科,是一门综合性技术,在信息
处理、办公自动化、机器翻译、人智能等高技术领域,都有着重要的实用价值和理论意义。
由于汉字字符集庞大、结构复杂、变形又多,脱机识别是一大难题。本文以脱机手写汉
字识别方法为研究内容,对各种方法的理论和实验结果进行深入的研究和对比分析,全面地
介绍了脱机手写体汉字识别的预处理方法,讨论了传统的二值化、平滑和细化算法。提出了
一种描述规范化处理的统一的数学框架,通过定义汉字图像的水平、垂直特征分布包括投
影、线距离、笔画间隔等以及特征分布的均衡函数,将四种典型的规范化处理线性、非
线性融入这个数学框架之中。对方法的运算复杂度、参数选取和对识别率的影响进行了系
统的分析。在此基础之上,提出了一种基于改进的手写体汉字非线性规范化处理方法和统计
模型的脱机手写体汉字识别算法。定义了一种适合汉字笔型特点的线密度函数,减小了非线
性规范化处理对汉字图像四个边界处变形较大的影响,有效地提高了后期识别的正确率。
详细地分析了隐马尔可夫模型的基本理论和方法,提出
了一种基于多重隐马尔可夫模型的手写体汉字识别新方法,以及结
合基于区域投影变换形成的边界链码特征。该方法对每个汉字建立个,通过等比重综
合方法将个分类器的计算结果进行综合,从而得到识别结果,实践证明该方法是可行的。
同时,应用语言设计了的实现框架,该框架对于各类应用问题中的隐马尔克夫建模具
有普适性和应用的灵活性。综合分析了在手写汉字识别应用的有效性,结果表明
是一个具有良好相容性的统计框架,并且具有建模的灵活性以及实现的简易性。实验结果表
明本文方法优于现有算法。
〔关键词」手写汉字识别, 图像处理,隐马尔可夫模型,边界链编码
西北工业大学硕士论文
印
知识水坝***@pologoogle为您整理
西北工业大学硕十论文
第一章绪论
研究背景
随着计算机、信息技术的高速发展,使用计算机处理并识别人们的文字信息己成为一个
非常重要的研究领域。字符识别是一门综合性技术,在信息处理、办公室自动化、机器翻译、
人工智能等高新技术邻域,都有着重要的实用价值和理论意义,其最主要的应用就是
技术通过扫描、摄像等光学输入方式等报刊、书
籍、文稿及其它印刷品的文字转化为图像信息,再利用模式识别技术将图像信息转化为计算
机可以处理的信息,该技术广泛应用于文字资料、材料、票据、档案处理,认证等邻域。
经过多年的研究与发展,字符识别技术有了长足的进步,取得了大量的成果。如果从文
字的书写模式不同,字符识别技术可分为印刷体字符识别和手写体字符识别两大类,而后者
又可根据识别方式不同区分为联机手写字符识别和脱机手写字符
识别。对于印刷体字符识别,由于具有文字书写规范、规格统一的特点,识别技术己经趋于
成熟,进入实用阶段,即使对印刷质量较差的文字的识别率也达到以上,特别是我国的
汉字技术,克服了起步晚、汉字字符集异常庞大等困难,单字的识别速度在早期的
机上就已达到字秒,多字体达到字秒,结合专用的物入设备,识别速度可达
·字秒。印刷体字符识别产品国内市场出售,较为著名的有清华大学推出的
汉王的系统。对于联机手写字符识别,由于当利用人工实时地把字符输入计算机时,可
以利用书写板把笔画变为一维电信号,输入计算机的是以坐标点序列表示的笔尖移动轨迹,
因而被处理的是一维的线条笔画串,这些线条串含有笔画数目、笔画走向、笔顺和书琢
速度等信息,因而目前也已经达到了实用阶段,国内已经有多家公司从事联机手写字符识别
的产品开发,市场上常见的“手写板”就是这样的产品。
尽管印刷体字符识别和联机手写体字符识别的技术己经比较成熟,但由于在有些场合,
不能采用书写板等专用的输入设备录入文字,或文字信息已经是以手写体的形式存在,则如
果要利用计算机进行文字识别,就只能进行脱机手写字符识别。
对于脱机手写字符识别,由于处理的仅是三维的字符点阵图像,而且存在字符类别多、