1 / 74
文档名称:

神经网络集成技术及其在癌症基因分类中的应用研究.pdf

格式:pdf   大小:2,801KB   页数:74页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

神经网络集成技术及其在癌症基因分类中的应用研究.pdf

上传人:iris028 2021/12/5 文件大小:2.74 MB

下载得到文件列表

神经网络集成技术及其在癌症基因分类中的应用研究.pdf

相关文档

文档介绍

文档介绍:摘 要
微阵列技术可以在不同条件下同时检测成千上万的基因在细胞中的表达水
平。已成为生物信息学研究的焦点,对生物医学研究产生了极大的影响。在癌症
的研究中,微阵列技术可以从肿瘤基因表达数据的变异研究中,获得更好的癌症
诊断与治疗方法。
人工神经网络已在很多领域得到了成功的应用,通过集成多个体网络提高系
统泛化能力的神经网络集成技术已成为神经计算技术的一个研究热点。本文研究
神经网络集成技术在癌症分类中的应用问题。
针对基因表达数据中样本数量小的情况,本文介绍了神经网络集成算法
Bagging 与 Boosting 方法,并对它们进行分析比较。Boosting 算法以提高不易分类
样本的训练机会,也即增加这类样本被抽中的概率来提高系统的分类效果,但不
稳定;而 Bagging 算法以等概率的方式抽样生成训练集,虽分类效果不如 Boosting,
但更为稳定。为此本文建立一种不等概的抽样方法产生训练集,训练个体网络。
并在基因表达数据上进行实验。结果表明,这种方法能有效地提高分类效果。研
究表明,有选择性地将部分个体网络用于集成能比全部个体网络用于集成获得更
好的效果,针对选择个体网络用于集成问题,本文提出一种动态集成方法,即以
分类准确率为标准动态选择个体神经网络集成。在基因表达数据上进行的实验结
果表明,神经网络集成的效果得到显著提高。在基因表达数据的分析中,针对特
征基因选择,本文给出一种改进的信噪比方法,以中位数取代均值作为信噪比的
参量。并在基因表达数据上进行实验,表明该方法能有效地剔除冗余基因。
针对特征基因的选取,本文还提出一种基于分层抽样的方法选择基因构成特
征基因集,并在结肠癌数据集上进行实验。实验结果表明这种方法可更有效合理
地获得特征基因集。将多个单个分类器共同构成分量分类器,以分类正确率较高
的分量分类器进行集成得到最终分类效果。在基因表达数据上进行实验,结果表
明,以这种方法集成可有效地提高分类预测结果。

关键词:基因表达数据;神经网络集成;特征基因;PPS 抽样;分层抽样;偏度
Abstract
The expression level of thousands of genes in cell can be simultaneously observed
in different conditions by micro-array experiment. And the method how to analyze the
gene expression data is the hot issue in bioinformatics research. In the meanwhile the
method has great effects on the research in the field of biomedicine. In the research of
cancer, better way to cancer’s diagnosis and therapy will be produced via studying on
the difference in cancer gene expression data, which comes from micro-array
technique.
Artificial neural network has been applied in many fields. The technique of neural
network ensemble, through the ensemble of many individual neural networks for
enhancing the system’s generalization, is the hot topic in the field of neural computing.
In this paper, we studied the neural network ensemble's application in the cancer's
classification.
For the small samples in the gene expression data, Bagging and Boosting are
introduce