1 / 24
文档名称:

DNA序列分类(2000年竞赛题).doc

格式:doc   页数:24
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

DNA序列分类(2000年竞赛题).doc

上传人:中国课件站 2011/12/7 文件大小:0 KB

下载得到文件列表

DNA序列分类(2000年竞赛题).doc

文档介绍

文档介绍:DNA序列分类
摘要本问题是一个“有人管理分类问题”。首先分别列举出20个学习样本序列中1字符串、2字符串、3字符串出现的频率,构成含41个变量的基本特征集,接着用主成分分析法从中提取出4个特征。然后用Fisher线性判别法进行分类,得出了所求20个人工制造序列及182个自然序列的分类结果如下:
20个人工序列:22, 23,25,27,29,34,35,36,37为A类,其余为B类。
182个自然序列:1,4,8,10,27,29,32,41,43,48,54,63,70,72,75,76,81,86,90,92,102,110,116,119,126,131,144,150,157,159,160,161,162,163,164,165,166,169,170,182为B类,其余为A类。
最后通过检验证明所用的分类数学模型效率较高。
问题重述
人类基因组计划中DNA全序列草图是由4个字符A,T,C,G按一定顺序排成的长约30亿的序列,其中没有“断句”也没有标点符号。虽然人类对它知之甚少,但也发现了其中的一些规律性和结构。例如,在全序列中有一些是用于编码蛋白质的序列片段,即由这4个字符组成的64种不同的3字符串,其中大多数用于编码构成蛋白质的20种氨基酸。又例如,在不用于编码蛋白质的序列片段中,A和T的含量特别多些,于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果。此外,利用统计的方法还发现序列的某些片段之间具有相关性,等等。这些发现让人们相信,DNA序列中存在着局部的和全局性的结构,充分发掘序列的结构对理解DNA全序列是十分有意义的。目前在这项研究中最普通的思想是省略序列的某些细节,突出特征,然后将其表示成适当的数学对象。
作为研究DNA序列的结构的尝试,提出以下对序列集合进行分类的问题:
1)请从20个已知类别的人工制造的序列(其中序列标号1—10 为A类,11-20为B类)中提取特征,构造分类方法,并用这些已知类别的序列,衡量你的方法是否足够好。然后用你认为满意的方法,对另外20个未标明类别的人工序列(标号21—40)进行分类,把结果用序号(按从小到大的顺序)标明它们的类别(无法分类的不写入)
同样方法对182个自然DNA序列(它们都较长)进行分类,像1)一样地给出分类结果。

各序列中DNA碱基三联组(即3字符串)的起始位置和基因表达不影响分类的结果。
64种3字符串压缩为20组后不影响分类的结果。
较长的182个自然序列与已知类别的20个样本序列具有共同的特征。

研究DNA序列具有什么结构,其A,T,C,G4个碱基排成的看似随机的序列中隐藏着什么规律,是解读人类基因组计划中DNA全序列草图的基础,也是生物信息学(Bioinformaties)最重要的课题之一。
题目给出了20个已知为两个类别的人工制造的DNA序列,要求我们从中提取特征,构造分类方法,从而对20个未标明类别的人工DNA序列和182个自然DNA序列进行分类。这是模式识别中的“有人管理分类”问题,即事先规定了分类的标准和种类的数目,通过大批已知样本的信息处理找出规律,再用计算机预报未知。给出的已知类别的样本称为学习样本。对于此类问题,我们通过建立分类数学模型(这包括形成和提取特征以及制定分类决策)、考查分类模型的效率、预报未知这几个步骤来进行。
特征的形成和提取
为了有效地实现分类识别,首先要根据被识别的对象产生一组基本特征,并对基本特征进行变换,得到最能反映分类本质的特征。这就是特征形成和提取的过程。在列举了尽可能完备的特征参数集之后,就要借助于数学的方法,使特征参数的数目(在保证分类良好的前提下)减到最小。这是因为:,而且会带来噪音,干扰分类和数学模型的建立。,而又不必要用太多的样本,最好使特征参数的个数降至最少。模式识别计算一般要求样本数至少为变量数的3倍,否则结果不够可靠。本问题的学习样本数为20个,故特征参数的个数以6—8个为宜。
我们通过研究4个字符A,T,C,G在DNA序列中的排列、组合特性,主要是研究字符和字符串的排列在序列中出现的频率,从中提取DNA序列的结构特征参数。
(一)特征的形成
分别列举一个字符,2个字符,3个字符的排列在序列中出现的频率,构成基本特征集。
1个字符的出现频率
表1列出了20个样本中A,T,C,G这4个字符出现的频率。由于在不用于编码蛋白质的序列片段中,A和T的含量特别多些,因此我们将A和T是否特别丰富作为一个特征。在表一中,列出了A和T出现的频率之和。(程序见附录一)
表 1

A C T G A+T
1. 2

最近更新

2025年三门峡社会管理职业学院马克思主义基本.. 13页

2025年上海市单招职业适应性考试题库附答案解.. 46页

2025年上海电机学院单招职业适应性测试题库带.. 43页

网络入侵检测系统的优化 26页

2025年中国青年政治学院马克思主义基本原理概.. 12页

2025年临沧职业学院马克思主义基本原理概论期.. 12页

耐火陶瓷多尺度断裂机制 32页

肝主谋虑与情绪调控 35页

2025年刚察县招教考试备考题库及答案解析(夺.. 31页

2025年华宁县幼儿园教师招教考试备考题库含答.. 31页

2025年南京邮电大学通达学院马克思主义基本原.. 12页

2025年南昌航空大学科技学院马克思主义基本原.. 12页

2025年厦门华天涉外职业技术学院马克思主义基.. 12页

2025年台江县招教考试备考题库附答案解析 31页

2025年周口师范学院马克思主义基本原理概论期.. 13页

2025年四川文轩职业学院单招职业适应性考试题.. 44页

2025年墨脱县招教考试备考题库含答案解析(必.. 30页

2025年天津仁爱学院单招职业适应性考试题库附.. 43页

2025年天津机电职业技术学院单招职业技能考试.. 44页

高温环境下的涂层稳定性 36页

2025年定襄县招教考试备考题库及答案解析(必.. 30页

2025年宝鸡职业技术学院马克思主义基本原理概.. 13页

网络干扰源识别 35页

2025年山东省聊城市单招职业适应性测试题库带.. 44页

2025年广东省河源市单招职业适应性测试题库附.. 43页

2025年广西智能制造职业技术学院马克思主义基.. 13页

2025年建水县招教考试备考题库附答案解析 31页

设计艾灸排烟系统施工方案 6页

江苏省住建厅发布《江苏省城镇排水管网排查评.. 1页

约瑟的一生PPT精选文档50页文档 50页