1 / 15
文档名称:

LDAkNN实现手写数字识别.doc

格式:doc   页数:15页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

LDAkNN实现手写数字识别.doc

上传人:2286107238 2016/3/2 文件大小:0 KB

下载得到文件列表

LDAkNN实现手写数字识别.doc

相关文档

文档介绍

文档介绍:.页眉..:本实验对美国国家邮政局数据库(USPostalServiceDatabase)收集的手写数字字符进行分类,首先用PCA的方法对实验数据降维,然后分别采用LDA和kNN的方法对数据进行分类,分类在训练样本上有很好的结果,但在测试样本上结果一般。一实验基础背景概述手写体阿拉伯数字,在邮政编码,统计报表,财务报表,银行票据等方面的用途广泛,故是图象处理和模式识别领域中的研究热点[1]。手写体字符由于书写者的因素,使其字符图像的随意性很大,例如,笔画的粗细、字体的大小、手写体的倾斜度、字符笔画的局部扭曲变形、字体灰度的差异等都直接影响到字符的正确识别。所以手写体数字字符的识别是数字字符识别领域内最具挑战性的课题。一幅字符图像至少包括数百个像素,如看做向量则有数百维,为了使字符图像包含的信息集中到维数尽可能少的特征向量上,同时又要使这些低维特征向量具有尽可能好的模式可分性,就首先要对字符进行特征提取。主成分分析(PCA)是研究较多的一种统计特征提取方法[2]。对于手写数字的识别,按使用特征的不同,大体可以分为两类:基于字符统计特征的识别方法和基于字符结构特征的识别方法。两类研究方法由于采用不同性质的模式特征,因此各具优势。一般来说,基于统计特征的方法,统计规律相对容易获得,并且统计规律更好的描述了一类模式的本质特征,对于与给定训练集差别不大的字符具有较高的识别率;基于字符结构特征的方法精确的描述了字符的细节特征,对书写结构较规范的字符有较高的识别率。具体方法有SVM,kNN等。本实验首先采用PCA降维,然后分别用LDA和kNN的方法实现手写数字的识别。,当高维数据x在该子空间进行投影后,所得分量具有最大方差。同时,在子空间用新分量对原始数据进行重建时,在均方误差最小的意义下逼近效果最优,即使下式最小化。21{|| ( ) || }MTi iiE x W x W???设1 2( , , , )TNx? ? ???是N维随机向量,其协方差矩阵为121 2{ } { ( , , , )}Tx NNC E xx E??? ? ??? ?? ?? ?? ?? ?? ?? ???PCA的目的就是找到一个正交变换矩阵1 2[ , , , ]TMW w w w??。对N维向量x进行正交变换,使得变换结果y的各分量( 1, 2, , )ii M???间互不相关,..,PCA将使得到的分量1?能量最大,即方差21{ }E?最大。这时1?称为第一主分量;在与1w正交的条件下,观测数据x在2w上投影,使2?能量最大,这时2?称为第二主分量。对于N维向量x,由于投影后的维数M N?,因此最多可以得到N个分量。在实际应用中通过截取其中( )d N??个主分量实现特征提取和降维。PCA有多种不同的数值计算方法,常用的是通过对x的协方差矩阵xC进行特征值分解来得到正交变换矩阵W。根据矩阵分析理论,如果x为实信号向量,协方差矩阵xC至少满足非负定的实对称矩阵,并且对于图像等自然生成的数据,xC几乎都是正定矩阵。因此TxC UVU?构成xC的奇异值分解。其中1 2[ , , , ]NU u u u??是xC特征向量构成的正交矩阵;1 2( , , , )NV diag? ? ???是特征值构成的对角阵。可以证明,当特征值?按从大到小的顺序排列时,令TW U?,那么U的各个基向量便是PCA的最优投影方向,按该方向对数据进行投影,得到的各主分量互不相关。因此通过求解协方差矩阵特征值对应的特征向量,可以获得各主分量对应的投影方向。。假设{0,1}y?并且0( ) ( | 0)f x f x Y? ?与1( ) ( | 1)f x f x Y? ?都是多元高斯分布,1/ 2 1/ 21 1( ) exp{ ( ) ( )}(2 ) | | 2Tk k k kdkf x x x? ???? ?????,0,1k?因此0