文档介绍:万方数据
RCNA Identification Algorithm Based on
K-means Clustering
A thesis submitted to
XIDIAN UNIVERSITY
in partial fulfillment of the requirements
for the degree of Master
puter Science and Technology
By Zhao Xiaojia
Supervisor: Prof. Zhang Junying
November 2015
万方数据
西安电子科技大学
学位论文独创性(或创新性)声明
秉承学校严谨的学风和优良的科学道德,本人声明所呈交的论文是我个人在
导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标
注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成
果;也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的
材料。与我一同工作的同事对本研究所做的任何贡献均已在论文中作了明确的说
明并表示了谢意。
学位论文若有不实之处,本人承担一切法律责任。
本人签名: 日期:
西安电子科技大学
关于论文使用授权的说明
本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究
生在校攻读学位期间论文工作的知识产权属于西安电子科技大学。学校有权保留
送交论文的复印件,允许查阅、借阅论文;学校可以公布论文的全部或部分内
容,允许采用影印、缩印或其它复制手段保存论文。同时本人保证,结合学位论
文研究成果完成的论文、发明专利等成果,署名单位为西安电子科技大学。
保密的学位论文在年解密后适用本授权书。
本人签名: 导师签名:
日期: 日期:
万方数据
摘要
摘要
基因拷贝数是指某一种基因或某一段DNA序列在某一生物基因组中的个数。
基因拷贝数变异是指和参考基因组相比,DNA片段在1Kb至1Mb范围内的缺失或增
加的一种结构变异现象。基因拷贝数突变(Copy Number Aberration, CNA)是普遍
存在于基因组中的一种结构变异,包含基因中拷贝数的缺失、插入、倒位、重排
和基因中多位点的复杂变异等。A的研究,我们可以
对基因组的结构、人体遗传差别和致病遗传因素等将会有一个全新的看法。RCNA
(A)A,它和
许多疾病都存在着关联。A的识别,可以为研究致病基因的分子机制提供
重要的思路和解决方案。
A区域,并对所
A区域进行计算评价,A区域的研究提供基础和
依据。
A区域进行分析,A区域所具有的聚
类特性,根据此特性,我们提出了基于k-A识别算法。在进行聚
类分析时,A区域作为一类,正常数据区域作为另一类。由于原始
数据中存在噪声,A区域,首先我们使用维纳
滤波算法去除数据中所包含的噪声,然后再对去除噪声后的数据进行后续分析。
对于整个数据的分析,我们从第一列开始选择数据,然后对所选择的数据进行
k-means聚类分析。紧接着将窗宽开始位置向前一列移动,再次选择指定窗宽的数
据进行分析。依次将每次所选择的数据进行聚类,最终完成对整个数据区域的遍
历。为了使实验结果更准确,针对每次所选择的数据区域需要进行多次k-means聚
类分析,最后求得多次聚类结果中各个样本点到该类聚类中心点的最小距离。通
过对聚类中心点的最小距离进行分析,A区
域。
本文所有的实验都是在仿真数据集上进行的,通过实验验证算法的可行性。
A识别算法进行比较和分析,表明本文算法在进
A的识别过程中有着更好的性能。
关键词:拷贝数突变, RCNA, k-means聚类
I
万方数据
西安电子科技大学硕士学位论文
II
万方数据
ABSTRACT
ABSTRACT
Gene copy number refers to the number of a particular gene or DNA sequence of a
certain region in anism's genome. Gene copy number variation means and
compared to the reference genome, DNA deletions within 1Kb to 1Mb or add a range of
structural variation phenomenon. Gene copy number mutations (Copy Number
Aberration, CNA) are ubiquitous in the genome of a struct