文档介绍:RCNAIdentificationAlgorithmBasedonK-puterScienceandTechnologyByZhaoXiaojiaSupervisor:(或创新性)声明秉承学校严谨的学风和优良的科学道德,本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果;也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同事对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。学位论文若有不实之处,本人承担一切法律责任。本人签名:日期:西安电子科技大学关于论文使用授权的说明本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权属于西安电子科技大学。学校有权保留送交论文的复印件,允许查阅、借阅论文;学校可以公布论文的全部或部分内容,允许采用影印、缩印或其它复制手段保存论文。同时本人保证,结合学位论文研究成果完成的论文、发明专利等成果,署名单位为西安电子科技大学。保密的学位论文在年解密后适用本授权书。本人签名:导师签名:日期:日期:摘要摘要基因拷贝数是指某一种基因或某一段DNA序列在某一生物基因组中的个数。基因拷贝数变异是指和参考基因组相比,DNA片段在1Kb至1Mb范围内的缺失或增加的一种结构变异现象。基因拷贝数突变(A)是普遍存在于基因组中的一种结构变异,包含基因中拷贝数的缺失、插入、倒位、重排和基因中多位点的复杂变异等。A的研究,我们可以对基因组的结构、人体遗传差别和致病遗传因素等将会有一个全新的看法。RCNA(A)A,它和许多疾病都存在着关联。A的识别,可以为研究致病基因的分子机制提供重要的思路和解决方案。A区域,A区域进行计算评价,A区域的研究提供基础和依据。A区域进行分析,A区域所具有的聚类特性,根据此特性,我们提出了基于k-A识别算法。在进行聚类分析时,A区域作为一类,正常数据区域作为另一类。由于原始数据中存在噪声,A区域,首先我们使用维纳滤波算法去除数据中所包含的噪声,然后再对去除噪声后的数据进行后续分析。对于整个数据的分析,我们从第一列开始选择数据,然后对所选择的数据进行k-means聚类分析。紧接着将窗宽开始位置向前一列移动,再次选择指定窗宽的数据进行分析。依次将每次所选择的数据进行聚类,最终完成对整个数据区域的遍历。为了使实验结果更准确,针对每次所选择的数据区域需要进行多次k-means聚类分析,最后求得多次聚类结果中各个样本点到该类聚类中心点的最小距离。通过对聚类中心点的最小距离进行分析,A区域。本文所有的实验都是在仿真数据集上进行的,通过实验验证算法的可行性。A识别算法进行比较和分析,A的识别过程中有着更好的性能。关键词:拷贝数突变,RCNA,k-anism',(A)areubiquitousinthegenomeofastructuralvariation,includingthenumberofcopiesofthegenedeletion,insertion,inversion,,wecanhaveawholenewviewofthestructureofthegenome,(A)A,itexists,-Aexcavatedarea,,,Arecognitionalgorithmbasedonk-,Aregionasaclass,,Aregion,firstw