文档介绍:万方数据
,Ⅵ沙Ы衖动态代谢组学数据分析方法介绍事张秋菊高兵孙琳刘美娜△近年来,代谢组学发展迅速并广泛应用于营养学、毒理学、疾病诊断等各个领域⋯。随着研究的深入,代谢组学所获得的数据集因研究设计的不同而日益复杂,产生了有时间间隔的动态代谢组学数据。然而目前分析此类数据的方法十分有限,并且在大多数情况下,这种动态数据所带来的因时间因素产生的变异直接被忽略。据此,本文回顾了现有的动态代谢组学数据的分析方法并对其研究进展进行介绍。常用代谢组学数据分析方法代谢组学数据最大特点是变量数远远大于观测数,且变量之间存在着高度相关性。目前,最常用于代谢组学数据分析的方法有:无监督学****方法的主成分分析蒍、有监督学****方法的偏最小二乘判别分析、正交偏最小二乘判别分析菻U庑┓椒ǹ梢蕴崛≡夹畔⒌淖畲蟊湟或在此基础上的最佳解释变异,将高维数据映射到低维空间,并给出降维后数据的可视化展示。随着研究深人,代谢组学不再拘泥于横断面研究,包含时间因素的动态代谢组数据被越来越多的研究所获得,这使得传统分析方法不再适用∞R訮为例,来说明传统分析方法不再适用动态代谢组学数据分析的原因。在动态代谢组学研究中,其数据特点不止是小样本大变量所带来的高维性,数据中还存在与时间有关的变异。例如:研究某种干预┪铮疚锏随着时间改变对不同处理组产生的效应是否有差别,并感兴趣于找出随时间改变的差异代谢物。若以矩阵每一行代表代谢组学数据每一个样本的观测时间点,列代表代谢产物进行诓欢辖行屑浯蚵液螅岱⑾原始得分矩阵贾盏韧诖蚵液蟮牡梅志卣髗始载荷矩阵J贾盏韧诖蚵液蟮脑睾删卣驪,这说明び诠鄄庵湟蚴奔湟蛩夭淖韵喙变异,若生硬地把所有时间点的数据同时进行主成分分析,只是一味地提取原始信息的最大变异进行降维而忽视变异的来源,将导致与时间相关的变异成为混杂因素而混淆处理因素带来的差异。这就是传统.、—不能解决动态代谢组学的关键。此时,迫切需要一类代谢组学数据的分析方法,可以在降维的同时捕捉到时间趋势产生的变异,更真实地揭示数据之间内部结构——动态代谢组学数据分析方法。动态代谢组学数据分析方法本文主要从降维的角度对动态代谢组学数据分析方法进行归纳介绍,包括以下方法:动态主成分分析、动态偏最小二乘法、方差同步主成分分析以及动态概率主成分分析方法等。从模型的发展来源、基本原理、适用情况及优缺点等方面介绍。鞒煞址治动态P桶街中问剑谝恢质怯蒏人年提出的动态诙钟蒚等人在年提出的滞后蒍,区别在于前者是对卣蠼卸伪浠唬笳呤嵌缘梅志卣蠼卸变换。其基本思想是:每个观测在每一个时间点所测得的代谢物浓度灰不仅由本时间点的测量所决定,还受之前时间点影响。所以动态梢钥闯墒自回归滑动平均外生氖奔湫蛄心P陀P偷慕岷暇蒍。定义二次变换矩阵,。輂,琇代表时间滞后,丁罦木卣蟆O旅嬉訪来阐述动态的工作原理。哈尔滨医科大学公共卫生学院卫生统计学教研室王文佶曲思杨谢彪腂б貰易匀换缓诹∽匀换鹬氐阆钅△通信作者:刘美娜,甿簂.
万方数据
行㈨。厂●鰅川叫变换后的新矩阵形式为:爻。篨新矩阵实质上是一个三维矩阵,包含三种变异:不同变量徊之间的变异;相同变量不同时间点问的变异;不同时间点以及不同变量间的变异此对矩阵爻进行治龊螅玫降氖钦馊直湟的混合得分。动态囊桓鼍窒奘牵河捎诎噖褁矩阵分割成了各个部分,降低了在时间方向上样本的数量,导致随着时间点增多丢失的信息随之增加。