1 / 130
文档名称:

高维数据统计学习及其在人脸识别、微阵列分析中的应用.pdf

格式:pdf   页数:130页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

高维数据统计学习及其在人脸识别、微阵列分析中的应用.pdf

上传人:endfrs 2015/5/5 文件大小:0 KB

下载得到文件列表

高维数据统计学习及其在人脸识别、微阵列分析中的应用.pdf

相关文档

文档介绍

文档介绍:中山大学
博士学位论文
高维数据统计学****及其在人脸识别、微阵列分析中的应用
姓名:阳文辉
申请学位级别:博士
专业:应用数学
指导教师:戴道清
20080527
高维数据统计学****及其在人脸识别、微阵列分析中的应用摘要专业:博士生:导师:应用数学阳文辉戴道清教授高维数据经常出现在许多现代模式识别的应用中,例如人脸识别、微阵列分析。人脸识别技术在国家安全、军事安全、公共安全和家庭娱乐等领域具有广泛的应用前景。虽然人类可以毫不费力地识别出人脸及表情,但机器自动识别却是一个极具挑战的难题。最近十几年,自动人脸识别已经成为计算机科学与信息技术领域的研究热点。另外,九十年代发展的微阵列技术能同时测量数千个基因的表达水平。这项技术期待能实现肿瘤早期的精确诊断,从而为肿瘤的治疗做出显著贡献。如何对基因芯片实验产生的海量数据进行有效的管理和分析已成为使用这一高通量技术的瓶颈。已有的分析软件虽然提供了聚类分析和一定程度的统计分析,但仍然很难从结果中得到有价值的生物学知识及数据背后隐藏的相互联系。近年来基于统计学****的模式识别方法引起了极大的关注,在人脸识别和微阵列分析中取得了很大的成功。代表算法包括不相关判别分析,二维判别分析和双聚类等等。本论文就是针对统计学****算法在自动人脸识别和基因表达数据分析中的各个环节中的应用展开的,论文的主要工作包括:��基于极大间距准则���牟幌喙嘏斜鸱治���方法模式分类中,判别向量的统计不相关性是一个非常有用的性质。统计不相关的特征包含有最小的冗余信息,而经正交特征向量集投影的特征空间因可能包含一些冗余信息而导致分类性能下降。本文提出了一种新颖的不相关判别分析���椒āJ紫龋�颐嵌�高维数据进行降维处理,讨论了利用奇异值分解得到的两种降维方法:一种是对总的散第�常�睻��
度矩阵投影;另一种是对类问散度矩阵投影。并且证明了对总的散度矩阵投影可以保持各类样本之问的线性可分,而对类间散度矩阵投影可以保持各类均值向量之间的距离不变。其次,基于具有较强鲁棒性、稳定性和有效性的极大问距准则����岢隽艘恢�不相关判别分析���惴ǎ焊盟惴ú恍枰?悸鞘�菸��脱�臼�康南拗疲�朔�司�典��木窒蕖S捎诓皇撬�械呐斜鹣蛄慷际怯杏玫模�谂斜鹣蛄垦∪〗锥危�颐嵌ㄒ�了一个优化判别子空间去限制判别向量的数目,从而建立了一种完全自动化的方式验证��基于二维极大间距准则���奶卣魈崛�在人脸识别中所处理的人脸图像数据都是二维的,如果要使用一维判别分析方法,就必须把人脸图像矩阵转化为向量,这种转化会带来两个问题:高维小样本问题和图像结构信息丢失问题。近年来,二维判别分析正是基于这两点而成为了人脸识别中的一项新技术。本质上,二维判别分析是基于图像的行或列去找判别向量,从而挖掘出图像的局部特征,但是从整体上来看,二维判别分析得到的投影矩阵仍然可能含有冗余信息。而一维判别分析是基于整幅图像去找判别向量,考虑的是全局特征。本文结合二维判别分析和一维判别分析的优势,提出了一个基于两个处理阶段的人脸识别框架:“������”。第一阶段,提出了一个二维双向特征提取技术:����。����可以看成是��椒ㄔ诙���萆系闹苯油乒恪5诙��段,在����的降维子空间里运行�����基于奇异值分解���南灾�A克ň劾喾椒�双聚类是对微阵列数据进行分析的一个重要途径。使用双聚类算法,我们可以识别出微阵列中的局部结构模型:在特定实验条件下,部分基因具有一致表达。这种模型可能对我们理解不同生理状态下的生物过程提供关键的线索。本文将网答,在特定条件下,哪些基因表达上调,哪些基因表达下调,哪些基因不显著等问题。这些信息能为我们提供许多有价值的基因网络调控信息。通过特殊的数据预处理,寻找特定实验条件下的表达上调基因组或表达下调基因组可以通过检测显著常量双聚类来实现。本文介绍了一种新颖的思想,以��?蚣埽�淹诰蚧�虮泶锸�葜�的常量双聚类问题转换为两个全局聚类问题。在全局聚类问题中,应用统计方法,我们估计了分层聚类里的剪枝阈值。我们的方法能识别出重要的相互调控基因组,并且能有效的把相同类型的样本聚类在一起。在三个公共数据库�������琇����和�����系氖笛榻峁�瓜至肆己玫目墒踊�卣骱徒馐湍芰Α�中文摘要参数。第�页,共���
基于奇异值分解���南喙厮ň劾喾椒�一般地,两个基凶的相关性是基于所有的实验条件来度量的。但当我们仅对部分实验条件感兴趣时,这种相关性的求法显得不恰当。另外,目前大多数双聚类算法仅去寻找正相关的双聚类。然而,生物学家认为不仅要识别包含正向相关,也要识别包含负向相关基因的双聚类。本文定义了一类更加广泛的双聚类类型一相关双聚类,这种类型具有更直观的生物解释。基于这种新类型,我们定义了一个新的得分公式对其评价。接下来我们利用