1 / 63
文档名称:

第七讲差异表达基因分析(2).ppt

格式:ppt   大小:2,828KB   页数:63页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

第七讲差异表达基因分析(2).ppt

上传人:zxwziyou9 2022/6/22 文件大小:2.76 MB

下载得到文件列表

第七讲差异表达基因分析(2).ppt

相关文档

文档介绍

文档介绍:第七讲
Quantile Normalization
使每张芯片/通道的强度值有相同的分布(intensity distribution)
Quantile normalization
Before
Aft火山图(volcano plot)
Statistical test: Pvalue
Fold change: Ratio
其他方法
B-statistics (Smyth,2004)
Bayes T-test (Baldi and Long, 2001)
SAMROC (Broberg, 2002)
Zhao-Pan method (Zhao and Pan, 2003)
… …
Improved Detection of Differentially Expressed Genes
Time series microarray dataset
聚类分析
基因表达数据矩阵 (Affymetrix GeneChip® oligonucleotide arrays)
sam/ref
基因表达数据矩阵 (glass slides)
数据矩阵具体形式
数据形式
数据矩阵,基因数远大于样品数
对任意一个基因来说,样本值是特征值,数据的维数是M
对任意一个样本来说,基因值是特征值,数据的维数是N
聚类时考虑基因之间的相似性,从数学上讲就是看对应的M维数据之间的相似性
Cluster&Treeview软件
Cluster&Treeview软件
Genesis软件
预分析(Pre-Analysis)
重复值合并( replicate handling )
数据转换和标准化(data transformation and standardization)
缺失数据处理( missing value management )
基因筛选(pattern selection)
重复值合并
基因不同命名
重复值合并
Gene ID converter
重复值合并
在特定条件下把所有的重复值合并成一个数值可能更为方便,而这一个值是给定基因/条件的代表。
通常的合并是指计算这些重复值的集中趋势指标,如均数、中位数或众数。然而,使用一个集中趋势指标代替一组数值意味着信息的丢失,因此数据的合并应谨慎。
去除奇异值。可以通过计算原始数据的均数和标准差,去除位于给定区间外的数据(如均数加减3个标准差外的数据)。剩余的数据重新计算均数和标准差,并消除给定区间外的数据。
数据转换和标准化
数据变换的目的是在尽量保证原始数据特征不变的前提下,使变换后的数据更适于进行统计分析。
对数转化(log-transformation)
中心化处理(center)
单位圆化
正态化(均值为0,方差为1)
缺失数据处理
芯片上的某些点可能因为芯片的缺陷、点像素强度达到饱和、点像素强度非常小等因素而产生异常的数据点,在数据的预处理阶段把这些数据点删除。
未观测点
若后续的统计分析要求数据满足完整性,如特征基因提取的奇异值分解、某些基因的聚类分析方法等,则需要对含有缺失值的数据进行处理
删除含有缺失值的整条记录,这种方法操作简单,但却因为个别值的缺失而删除整个记录,可能丢失大量有价值的信息
填充或修补缺失数据
缺失数据的处理
固定值法,比如0或者1
行平均法
使用重复数据点对缺失数据进行填充。对于生物学重复中缺失数据的填充应慎重,应当使用尽量同质的样品对缺失值进行估计。
使用基因间的相关性对缺失数据进行填充。奇异值分解法,KNN法。
其他方法,最小二乘法拟合修补,方差迭代分析,最大可能性分析
KNN法
K最近邻法(K-nearest neighborhood method):假定某个基因在某个指标上含有缺失值,计算此包含缺失值的基因与在该指标上无缺失的基因间的相似性指标或距离指标(相似性或距离的计算中不包括欲估计的指标),与该基因相似性最大的K个基因称为该基因的K个最近邻(k nearest neighborhoods),这K个基因在该观测指标上的数据就是估计缺失基因数据的基础,估计值可以是这K个基因在该指标上的均数,也可以是这K个基因的加权均数。在加权均数中,权重为上面计算的基因间的相似性。K值的确定具有一定的经验性,但不宜太大和太小。
基因筛选(gene selection)
在进行分析之前,要先选择用来分析的基因。不然所有的基因有上万条,也就是数据矩阵有上万行时,既增加了运算的难度,又引