文档介绍:毕业论文(设计)
题目汉字识别技术研究
学生姓名学号
年级安全防范工程专业方向
教务处制
汉字识别技术研究
摘要:本文主要在研究当前光学字符识别系统及相关识别技术的基础上,利用matlab编程语言设计了一套简单的相对具有较高识别率的汉字识别程序。首先,将RGB图像转化为二值图像(即仅有黑白二种颜色的图像),而后经平滑处理,滤除混入的噪声,得到清晰完整的文字图像,其次,进行行字切分使整篇文字图像成为单个文字图像,最后提取汉字的横竖撇捺特征与现有的汉字特征库进行比较匹配从而进一步输出汉字的数码形式。实验结果表明,本文研究的方法能够识别汉字,准确率较高。
关键词:印刷体汉字识别;预处理;特征提取;特征匹配
Research on Chinese Character Recognition Technology
Abstract: This thesis studies on the optical character recognition system and correlative recognition technology, based on the matlab programming language designed a set of relatively high recognition simple of character recognition programs. First, transforming RGB images into binary image (only black and white color image) , then the smooth filtering de-noising intermingled with the noise of the text to get clear. Secondly , the image segmentation words, the essay writing as a single word images, the images of Chinese abandoned any final extracting features of characters with existing is feature pared to further output characters of the match in digital form. Experimental results show that this method can be used to identify Chinese characters and precise.
Key words: Print Chinese Character;Preprocessing;Characteristic collecting;Characteristic matching
目录
1 绪论 1
汉字识别的研究背景与现实意义 1
我国汉字识别技术发展历史与现状 2
本文研究的主要内容 3
2 汉字识别技术的相关基础知识 4
概述 4
汉字识别流程 5
5
特征提取 6
特征匹配与汉字识别 7
后处理 7
汉字识别模式 8
结构模式识别 8
统计模式识别 8
3 汉字识别系统 9
9
二值化处理 9
平滑去噪 10
行字切分 10
特征提取 12
统计特征 12
特征提取方法 13
特征匹配识别 13
后处理 14
4 系统仿真与实验结果 15
15
15
15
特征提取与特征识别 19
比对实验 21
22
本章小结 22
5 总结与展望 23
23
23
致谢 25
参考文献 26
1 绪论
汉字识别的研究背景与现实意义
据文献记载,印刷体汉字的识别最早可以追溯到60年代。1966年,IBM公司发表了第一篇关于印刷体汉字识别的论文,在这篇论文中他们利用简单的模板匹配法识别了1000个印刷体汉字。70年代以来,日本学者做了许多工作,其中有代表性的系统有1977年东芝综合研究所研制的可以识别2000个汉字的单体印刷汉字识别系统;80年代初期,日本武藏野电气研究所研制的可以识别2300个多体汉字的印刷体汉字识别系统,代表了当