文档介绍:基于卷积神经网络的手写汉字识别研究
摘 要:神经网络仿照生物神经元的工作原理,本质上是输入与输出之间的一种映射,卷积神经网络具有参数共享机制与连接的稀疏性,其对传统神经网络层级结构中层的功能和形式做了部分变化,通过局部连接的方数据重建难度;无需手动选取特征,利于特征图的精确提取与分类识别。
(二)卷积神经网络的结构。卷积神经网络的结构组成可分为五部分,依次为数据输入层、卷积计算层、池化层、全连接层、输出层。输入层是整个神经网络的输入,在处理图像的卷积神经网络中,它一般代表了一张图片的像素矩阵,卷积神经网络的输入层可以处理多维数据;卷积层是一个卷积神经网络中最重要的部分,由滤波器和激活函数构成,进行局部关联与窗口联动操作,能够提取数据图像的特征,将神经网络中的每一个小块进行更加深入的分析从而得到抽象程度更高的特征;池化层又叫下采样层,用于压缩数据和参数的量、降低数据维度,对样本数据进行子抽样操作,具有保持信息尺度不变性特征,可以去除冗余信息,抽取重要特征,防止神经网络的过拟合;全连接层是一排神经元,用于连接扁平化多维数据,在卷积神经网络的最后部分,是对提取的特征进行非线性组合以得到输出,用来完成分类任务。输出层的结构和工作原理与传统前馈神经网络中的输出层相同,对于图像分类问题,输出层使用逻辑函数或归一化指数函数(softmax function)输出分类标签[2]。
二、基于卷积神经网络的汉字识别
在传统的汉字识别方法中,常用弹性网格特征、方向线素特征以及Gabor特征方法,来提取汉字特征,例如,方向线素特征是根据汉字的八方向线素特征与路径签名特征,来提取图像中汉字内在特征;提取特征之后,用模板匹配法、决策树算法、Adaboost算法等来对汉字图像进行分类。传统的方法需要人工干预,需要做出大量的工作,且识别的效果有限。
随着计算机技术的发展,数据信息技术与智能技术为汉字识别提供了新的实践与理论模式,使得汉字识别数字化与智能化成为可能。深度学习技术的发展,满足了手写汉字识别革新需求,使得联机和脱机手写汉字的识别率都大为提升,同传统的方法相比进步非常明显。利用深度学习的方法进行手写汉字识别,不需要人工提取汉字特征,深度神经网络会自动完成汉字图像特征的提取和分类。目前,在汉字识别领域,具有代表性的神经网络为CNN和RNN,CNN主要用于对汉字单字的识别,RNN主要用于文本行的识别。下面主要对基于卷积神经网络的汉字识别进行介绍。
(一)基于卷积神经网络的汉字识别流程。在传统的汉字识别流程中,可分为预处理、特征提取与降维、分类器分类与识别以及输出结果等几个模块,其识别性能较为不稳定、识别速率不高,耗时费力。对于卷积神经网络,想要完成汉字识别,首先必须准备大量的手写汉字样本,一般情况下,手写汉字的识别流程为:收集汉字样本集和测试集、利用样本训练卷积神经网络、调参、利用测试集进行测试、输出测试结果。[3]对于卷积神经网络而言,由于网络良好的特性,能够从不同的样本图像中提取出最能表达汉字本质的数据特征,实现对大规模汉字样本集的训练,大大提高了汉字识别率与正确率。
(二)汉字识别流程主要步骤介绍。首先,要从网络上搜集汉字样本,手写汉字样本可以利用中科院自动化研究所模式识别国家重点实验室的CASIA-HWDB