1 / 14
文档名称:

微阵列数据癌症分类问题中的基因选择.pdf

格式:pdf   大小:915KB   页数:14页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

微阵列数据癌症分类问题中的基因选择.pdf

上传人:q1188830 2022/2/22 文件大小:915 KB

下载得到文件列表

微阵列数据癌症分类问题中的基因选择.pdf

文档介绍

文档介绍:: .
计算机研究与发展 的呢�捎谠诎┲⒎掷嘤τ弥校�基因被看做是属性,基因相关性实质上就是属性相关性,了解了属性相关性概念也就认识基因相关性.下面通过介绍属性相关性来认识基因相关性.属性相关性在属性选择领域是一个非常重要的间的相关性,相关性强的属性直觉上往往对分类是重要的,因而在属性选择时应该被选择,而不相关的属性应该被删除.关于属性相关性的形式化定义,在机器学****和数据挖掘领域有不少��.这些定义把属性分为与目标类相关的和不相关的两种.���和����赋龈�菡庑┒ㄒ蹇赡芑岬玫揭庀氩坏�的结果,并指出仅仅将属性分为相关的和不相关的两类是不够的.进而提出了一个新的属性相关性定和���在���和��定义的基础上,进一步在弱相关属性中定义了属性冗余性.��和��在���和��定义的基础上,用信息熵理论定�韵鲁莆狟�亩ㄒ�.��的属性相关性定义设�且桓鍪粜匀ḿ�珻为类标号,�闒.属性选择的目标就是要选择一个最小的子集��沟��等于或者尽可能接近���是给定�兴�惺粜灾岛蟛煌�嗟母怕史植迹琍���是给定属性全集中的属性值后不同类的初始概率分布.根据属性选择的这个目标,���和��将属性划分为强相关的、弱相关的和不相关的�啵�设�且桓鍪粜裕琒;�一���蚯肯喙亍⑷跸喙�定义��肯喙匦裕�桓鍪粜証是强相关的,当且仅当��.厂�琒。�貾��定义��跸喙匦裕�桓鍪粜証是弱相关的,张丽娟等:微阵列数据癌症分类问题中的基因选择⋯,��和样本所属类别�W槌桑�中,基因被看做属性�卣�,组织样本被标明为特定的种类,如癌变组织或正常细胞、癌症的各个类别、于微阵列数据的癌症分类过程与传统数据挖掘中的��基因相关性概念,一个属性的相关性通常指该属性与类标号之义,这个新定义受到很多研究者的关注和引用.�义了属性相关性�引.下面将介绍���和��的定义�韵鲁莆狵�亩ㄒ�及��和��的定义���,��和不相关分别定义如下:��.万方数据
食道癌 /
当且仅当:����,������且了�篶���琒:�貾����.推论��幌喙匦裕�桓鍪粜証是不相关性的,当且仅当:�骸闟�琍��,����根据上述定义,强相关的属性对目标类是绝对必要的,删除它们会降低分类精度;而弱相关属性不一定必要,但在某种条件下有可能必要;而不相关属性对分类来说不起任何作用,是绝对不必要的.这种相关性的定义非常灵活:使用这个定义,我们可以选择强相关属性或者弱相关属性来满足不同的分类要求.但这个定义也有不足:没有说明哪些弱相关属性应该保留,哪些应该删除.为了克服这个不足,�和���在弱相关属性中定义了属性冗余性.属性冗余性的定义采用属性���������ㄒ桓鍪粜証,假设���’仨��琒�牵琭的���������且仅当:�,������跫�G螅篠;不仅要包含,;关于�男畔ⅲ�挂0�琟关于所有其他属性的信息.���和���【��赋鲆桓鲎钣诺氖粜宰蛹��以通过向后删除的过程得到,这个过程称为�����耍杭偕鐶是当前所选的属性子集�J际盙���谌我馐笨蹋�绻�贕中存在,;的一个��������敲淳痛覩中删除,。.定义��哂嗍粜裕�偕鐶是当前所选择的属性子集,一个属性是冗余的并且应该从�猩境��当且仅当这个属性是弱相关的,并且在�杏幸桓�����男灾屎苋菀卓吹剑涸缙�阶段删除的冗余属性在其他属性被删除后它仍然保持其冗余性.��的属性相关性定义��和��基于信息论来定义一个变量��性�肓硪桓�目标�淞恐�涞南喙匦裕憾ㄒ逦A礁�变量相对于目标变量熵的互信息.换句话说,即是一个变量由于已知另外一个变量所提供的知识和信息,而导致熵�蝗范ㄐ�的相对约简.约简量越大相关性越大,形式化地定义如下:定义���ū淞縓,�蚙,它们具有联合概率分布��鐸�;��为已知变量�螅�淞縓和变量��涞幕バ畔ⅲ�鐷���为已知�骕的熵.如果���≠��敲矗��╖,变量�氡�量��涞南喙匦詒��籝��定义为��;���.如果����敲磖。�;���,在不引起混淆的情况下�根据这个定义,在已知变量�那榭鱿拢�淞��氡淞縴的相关性可以表示为当�蚙已知时�牟蝗范ㄐ缘南喽栽技蛄浚�辛苏飧龆ㄒ澹�颐�可以表达相关度:已知变量�那榭鱿拢�淞縓与变量�南喙囟任#��;��.这是有条件的情况:变量�氡淞