文档介绍:...页眉....页脚基因表达谱芯片数据分析及其 Bioconductor 实现 DNA 芯片( DNA microarrays for gene expression profiles )是指将大量 DNA 片段或寡核苷酸固定在玻璃、硅、塑料等硬质载体上制备成基因芯片, 待测样品中的 mRNA 被提取后,通过逆转录获得 cDNA ,并在此过程中标记荧光,然后与包含上千个基因的 DNA 芯片进行杂交反应 30min~20h 后,将芯片上未发生结合反应的片段洗去,再对玻片进行激光共聚焦扫描,测定芯片上个点的荧光强度,从而推算出待测样品中各种基因的表达水平。用于研究基因表达的芯片可以有两种: ① cDNA 芯片; ②寡核苷酸芯片。 cDNA 芯片技术及载有较长片段的寡核苷酸芯片采用双色荧光系统:目前常用 Cy3 一 dUTP (绿色)标记对照组 m RNA , Cy5 一 dUTP (红色)标记样品组 mRNA [1]。用不同波长的荧光扫描芯片,将扫描所得每一点荧光信号值自动输入计算机并进行信息处理,给出每个点在不同波长下的荧光强度值及其比值( ratio 值),同时计算机还给出直观的显***。在样品中呈高表达的基因其杂交点呈红色,相反,在对照组中高表达的基因其杂交点呈绿色,在两组中表达水平相当的显黄色,这些信号就代表了样品中基因的转录表达情况[2]。基因芯片因具有高效率,高通量、高精度以及能平行对照研究等特点,被迅速应用于动、植物和人类基因的研究领域,如病原微生物毒力相关基因的。基因表达谱可直接检测 mRNA 的种类及丰度,可以同时分析上万个基因的表达变化,来揭示基因之间表达变化的相互关系。表达谱芯片可用于研究:①同一个体在同一时间里,不同基因的表达差异。芯片上固定的已知序列的 cDNA 或寡聚核苷酸最多可以达到 30000 多个序列,与人类全基因组基因数相当,所以基因芯片一次反应几乎就能够分析整个人的基因[3]。②同一个体在不同时间里,相同基因的表达差异。③不同个体的相同基因表达上的差异。利用基因芯片可以分析多个样本,同时筛选不同样本(如肿瘤组织、癌前病变和正常组织) 之间差异表达的基因,这样可以避免了芯片间的变异造成的误差[4]。张辛燕[5] 等将 512 个人癌基因和抑癌基因的 cDNA 用点样仪点在特制玻片上制成表达谱芯片,对正常人卵巢组织及卵巢癌组织基因表达的差异性进行比较研究,结果发现在卵巢癌组织中下调的基因有 23个,上调的基因有 15个,初步筛选出了卵巢癌相关基因。 Lowe [6]等利用胰腺癌、问充质细胞癌等组织的 cDNA 制备基因芯片,筛选到胰腺癌细胞中高表达的基因,为医疗诊断、病理研究及新药设计...页眉....页脚奠定基础。 探针水平数据( probe - level data )的获得提取生物样品的 mRNA 并反转录成 cDNA ,同时用荧光素或同位素标记。在液相中与基因芯片上的探针杂交,经洗膜后用图像扫描仪捕获芯片上的荧光或同位素信号[7],由此获得的图像就是基因芯片的原始数据( raw data ),也叫探针水平数据。获取探针水平的数据是芯片数据处理的第一步,然后需要对其进行预处理( pre-processing ),以获得基因表达数据( gene expression data )。基因表达数据是芯片数据处理的基础。 预处理 背景( background )处理背景处理即过滤芯片杂交信号中属于非特异性的背景噪音部分。一般以图像处理软件对芯片划格后,每个杂交点周围区域各像素吸光度的平均值作为背景。但此法存在芯片不同区域背景扣减不均匀的缺点,同时会使 1%~ 5% [7]的点产生无意义的负值。也可利用芯片最低信号强度的点(代表非特异性的样本与探针结合值)或综合整个芯片非杂交点背景所得的平均值做为背景[8]。 Brown [8]等提出利用整个芯片杂交点外的平均吸光度值作为背景的 best - fit方法,使该问题得到较好的解决,并有效地提高了处理数据的质量。背景处理之后,我们可以将芯片数据放入一个矩阵中: M=其中,各字母的意义如下: N:条件数; G:基因数目(一般情况下, G>>N ); 行向量 m i =(m i1,m i2,…,m iN)表示基因 i在N 个条件下的表达水平(这里指绝对表达水平,亦即荧光强度值); 列向量 mj=(m 1j,m 2j,…,m Gj)表示在第 j 个条件下各基因的表达水平(即一张芯片的数据); 元素 m ij表示第基因 i在第 j个条件下(绝对)基因表达数据。m可以是 R (红色, Cy5 ,代表样品组)。也可以是 G(绿色, Cy3, 代表对照组)。 数据清洗(