文档介绍:中文摘要
摘要
生物信息学是由生物学、应用数学、计算机科学相互交义所彤成的学科,
数掘挖掘作为一个崭新的计算机应用领域在生物信息学叶凶臞旱腏避。空川
环境生物信息学数据的分析方法研究是在生物信息学范畴内,基于当今同渐成熟
的太空技术展开,主要用来研究空间环境对水稻种子产生的生物学效应的机制,
即针对空间环境诱变因素数据以及生物学实验分析获取的表型组、蛋自质组的变
化信息数据进行存储、集成和管理,在此基础上,对数据进行聚类分析、天联规
则挖掘,试图找出空间环境诱变的机理及蛋白质约谋浠啤
在查阅大量国内外参考文献基础上,本文开展了以下几项工作:
构建诱变水稻变化信息的数据库系统,其中包括空间环境诱凶信息、诱变水
稻的表型组和蛋白质组信息。
构建数据仓库,解决不同组学之间存在的数据不一致、冗余、噪声等问题,
为后续的数据分析与挖掘咀鞔蛳铝己玫幕
提出了基于投票机制的动态聚类融合算法,该算法自动确定聚类个数,利用
不同的相似度准则运行甿算法,实现了动态确定运行次数,并将多次运行得
到的结果映射到关联矩阵,使用投票机制获得最终的数据划分。该算法具有对领
域知识要求和参数依赖程度低等特点。
优化并改进了经典关联规则惴ǎ盟惴ㄕ攵耘N镄畔⒀テ毡榇
在着维数过大、数据量巨大等特点,通过减少数据库记录的扫描次数及频繁项集
的生成个数提高算法效率。
关键词:生物信息学;数据挖掘;空问环境诱变水稻;聚类融合;关联分析
英文摘要
琣
瓾,
.
, 琤
疭,
.
琾
瑆
.
,
,
琾
, .
,
,
瑃
.
.
琤
,
.
築籇; ;
;
空间环境生物信息学数据的分析方法的研究
第乱
世纪年代未,人类基凶组计划的启动推动了生物信息学的产陁蓬勃发展。
该计划获得了大量数据,从这些数据的分析中获取有用的肺镅畔ⅲ贾铝苏镄畔
学的产生。生物信息学是在生命科学研究中以计算机为:具对生物信息进行储存、检索
和分析的科学,而数据挖掘是一个崭新的计算机应用领域。随着数据挖掘技术的/断发
展与成熟,数据挖掘技术对生物信息挖掘的应用起着越来越重要的作用。
研究背景
.占渖蒲в氲孛婺D夥
空间生命科学足研究在空间环境条件下牛物体的尘长、发育和演变规律的⋯疛学
科。空间飞行环境中伴有高辐射,无搔夜、微重力等,这种胁迫环境使得,物体在形态、
细胞水平等发生改变,生物体的基因表达发生变化,并进‘步诱导突变体的产:。例如,
微重力环境下大鼠中枢神经系统胶质细胞蛋白的表达水平娃著增强¨晃Ⅶ淮╨
起大鼠海马、顶叶皮层蛋白的表达上调【等等。
国外空问生命科学研究始于年左右,美国和5韧以诟髦掷嘈驼璴’【匕
行器上研究空间条件下植物生长发育规律,失重对生物系统的作用机理,宇宙辐射对乍
物机体的影响研究,特别是宇航员在宇宙空问长期活动造成的牛理变化【。
我国空间生命科学研究始予年,主要针对空植物学研究。近年来随着我
宇航事业的发展,尤其是神舟五号和六号载人飞船的发射成功,利用空间环境进行诱/叟
育种已经越来越多地引起一些育种专家的兴趣。除了培育新品种以外,生物学家还研
究植物种类、机能状态、组织和分裂周期状态等对辐射的不同效应以及植物组织损伤。恢
复机理等。
地面模拟辐射是利用地面的高能粒子力速器对辐射材料进行巾测素辐射从而研究
辐射对生物体损伤的一种实验手段。空问辐射环境相对复杂,地面环境雉以完仓模拟,
因而可选择不同的重金属离子作为辐射的粒子源来进行地面模拟辐射的实验。冈此地面
第乱
模拟辐射足研究卒疕涞囊桓鲋匾M揪叮彩悄壳拔谕饪U箍誌譐辐射生物学研究的
’荸要方法。
综上所述,我们可以利用高能量重离子的地面模拟辐射来研究空间辐射对水稻基因
组的影响。使用模式生物水稻丌展地面模拟辐射实验,使我们可以获得许多有价值的实
验数据,从而更好地为研究空间辐射对生物体的损伤效应提供理论依据。
.旧镄畔⒀а芯扛攀
作为剀际上已被公认的遗传和发育研究的模式植物,水稻是禾本科作物中基因组最
小的作物,年由中国、几本、美闷和法固等个国家和地区共同发起承担的“国
际水稻堆驣组‘划”启动。年完成了粳稻品种同本晴的测序及第,
条染色体的完成图】;此外在中困广为种植的籼稻品种』。陆矮诺牡谒奶跞旧宓木
细测序也已究成。水稻皋冈组测序的基本完成,使得对其基冈组的研究更加方便易行。
随符际:联网的快速发展,生物信息学迅速发展。广义的说,生物信息学是通过
对琏闪组的研究,获取、加工、存储、分配、分析和解释相关牛物信息。这