文档介绍:. . .
第卷第期年月科学技术与工程
. ...
生物科学
依据基因表达值对未知类别
细胞的分类方法研究
赵良
河南科技学院,新乡
摘要采用个人癌变、正常和未知类型各个的各自条基因的表达值为研究对象,使用聚类分析法、线性判别分
析法对未知类别对象进行了分类,结果显示所得分类结果基本一致。所用分类方法可操作性较强,能为有关研究者提供理论
支持和具体操作方法及程序,也能为相关部门提供决策依据。
关键词基因表达均值聚类分析判别分析
中图法分类号; 文献标志码
的一般水平。这里我们针对每一条基因,选取样
问题的提出本表达值的均值作为它的平均表达水平。对于正
常组和癌变组分别找出各自的表达水平向量
年北京大学校内数学建模竞赛试题,是源’:
自生物信息学的一个探究性问题。原问题给出了. . . .
来自个人细胞的各自条基因的表达值。其⋯. . . .,
中,前个细胞来自癌症患者,对应于第—组. . . .
基因的表达值;接着的第—组基因的表值对应⋯. . .。
于正常的细胞,第—组表达值为待分类细胞的计算正常组和癌变组各项指标的样本观察
基因表达值。要求从繁多的细胞基因表达值数据值的标准差,.,最小为
中提取有用的分类依据信息,将未知类别的细胞分.,标准差大于的基因有条见表。
类,以用于进一步的研究。这说明同类指标检测数据波动较大,但它也从另
一方面说明:对于基因表达值而言,均值相差
数据分类以内是不会对结果造成太大影响,属于表达稳
定。标准差小于的基因数只占基因总数的
在统计学中,样本的均值表示了该样本数值%左右。而标准差相差以上的基因数占基
因总数的%左右。这就为我们筛选数据提供
年月日收到了依据。
第一作者简介:赵良一,硕士,副教授,硕士生导师。
—: ..。
科学技术与工程卷
表两类细胞基因表达值标准差的分布若设个样品被分为类,记为,,⋯, ,
表示类的样品个数, 表示的均值, 表示
中第个样品:,,⋯, ,则中样品的离
差平方和为:
∑置一一置,,,⋯,。
由上述分析,我们选取基因表达值标准差大于
的基因条【。以下,我们将对三组数据进行个类的总离差平方和为当固定时要选择
使得最小的分类: 媚㈧∞孙聃诣引¨∽始㈨鞠㈨
比较分析:
组为条原始基因的表达值全体; ∑。
组Ⅱ为表达值标准差大于的条基因的
法基本思想为:先将个样品各自成一
表达值; ●, ■,
类,此时,然后每次将其中的某两类合为一类;
●●●■■畸●■●■■●■●●
组Ⅲ为均表达水平标准差大于的条基因。々‘
£
随类的个数的减少, 递增,故每次选择使增加●‘
如此,对于基因在表达水平上的差异,可以从
最小的两类进行合并,直至所有样品合为一类。
上述三个层次基因的平均表达水中体现。它体现¨
.. 利用软件进行聚类
在筛选出的基因的平均表达水平的差值。⋯川删
第一步:统计量的选取【
待分类基因的两种分类方法统计量啾啪
一
一一
. 依据待分类基因组自身特点的分类一
, 其中∑∑一一。
‘
.. 聚类分析原理
表示所有样品的均值。越大,说明个类
由