1 / 67
文档名称:

决策树算法 (2).ppt

格式:ppt   大小:3,275KB   页数:67页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

决策树算法 (2).ppt

上传人:文库新人 2022/3/28 文件大小:3.20 MB

下载得到文件列表

决策树算法 (2).ppt

文档介绍

文档介绍:*
第一页,讲稿共六十七页哦
第9章 决策树算法
*
第二页,讲稿共六十七页哦
本章大纲:
决策树算法原理
常用决策树算法
决策树剪枝
由决策树提取分类规则
应用实例分析
*
第三页,讲稿共六十七页哦
()
*
第十五页,讲稿共六十七页哦
ID3算法
上式即为著名的香农信息量公式。注意到式中的对数以2为底,当n=2时且时,熵=1比特。由此可见,一个等概率的二选一事件具有1比特的不确定性。所以,可以把一个等概率的二选一事件所具有信息量定为信息量的单位。任何一个事件能够分解成n个可能的二选一事件,它的信息量就是n比特。
*
第十六页,讲稿共六十七页哦
ID3算法
Quinlan的首创性工作主要是在决策树的学****算法中第一次引入了信息论中的互信息(称之为信息增益),以之作为属性选择的标准,并且将建树的方法嵌入在其中,其核心是在决策树的各级节点上选择属性,用信息增益作为属性选择标准
*
第十七页,讲稿共六十七页哦
ID3算法
下面给出的是ID3算法中将香农的信息熵定义应用到决策树构造中,进而给出的信息增益的定义。
设训练数据集D=
, 是n维有穷向量空间,其中
是有穷离散符号集,D中的每个元素
,叫做例子,其中
设PD和ND是D的两个子集,分别叫做正例集和反例集。
*
第十八页,讲稿共六十七页哦
ID3算法
假设训练数据集D中的正例集PD和反例集ND的大小分别为p和n,则ID3基于下面两个假设给出该决策树算法中信息增益的定义,因为信息是用二进制编码的,所以在下面的公式定义中都用以2为底的对数。(1)在训练数据集D上的一棵正确决策树对任意例子的分类概率同D中正反例的概率一致;(2)一棵决策树能对一个例子做出正确类别判断所需的信息量如下公式所示:
*
第十九页,讲稿共六十七页哦
ID3算法
如果以属性A作为决策树的根,A具有v个值 ,它将A分为v个子集 ,假设中含有p个正例和n个反例,那么子集所需的信息期望是,那么,以属性A为根所需的信息期望如下公式所示:
因此,以A为根的信息增益如下公式所示:
*
第二十页,讲稿共六十七页哦
ID3算法
上面给出的ID3中的信息论的相关定义主要是在两类分类问题的前提下,下面给出将其扩展到多类后的相关定义描述。
设训练数据集D一共有m类样例,每类样例数为: 。同样以属性A作为决策树的根,具有v个值 ,它将D分为v个子集 ,假设子集中任意元组属于类C的概率 用表示,并用 估计。那么,该子集的信息量定义如下所示:
那么以A为根分类后所需的信息期望如下面公式所示:
*
第二十一页,讲稿共六十七页哦

(1)分裂
(2)连续数据
(3)缺失数据
(4)规则
*
第二十二页,讲稿共六十七页哦

ID系列的算法为什么会产生归纳偏置呢?
归纳偏置是一系列前提,这些前提与训练数据一起演绎论证未来实例分类。如果给定一个训练数据集,那么通常有很多决策树与这些样例一致。所以,要描述ID系列算法的归纳偏置,应找到它从所有一致假设中选择一个的根据。
*
第二十三页,讲稿共六十七页哦

ID系列的搜索策略为:(1)优先选择较短的树而不是较长的;(2)选择那些信息增益高的属性离根节点较近的树。
结论:ID系列算法的归纳偏置是因为它在选的时候较短的树比较长的树优先所产生的,也就是那些信息增益高的属性更靠近的根节点将会有优先生成树的特权。
*
第二十四页,讲稿共六十七页哦

为了避免这个偏置,弥补ID系列算法的不足就要舍弃信息增益这个度量而选择别的决策属性作为度量标准。Quinlan在他1986年中的论文中提出了一种可以使用的度量标准:增益比率。
增益比率通过加入一个被称为分裂信息(split information)的项来惩罚类似Date这样的属性,分裂信息用来衡量属性分裂数据的广度和均匀性,它由如下

最近更新

中国历史文化知识竞赛100题精品(精选题) 14页

县乡教师选调考试《教师职业道德》题库word版.. 43页

县乡教师选调考试《教师职业道德》题库及答案.. 42页

县乡教师选调考试《教师职业道德》题库精品(.. 45页

县乡教师选调进城考试《教育心理学》题库a4版.. 121页

县乡教师选调进城考试《教育心理学》题库含完.. 120页

县乡教师选调进城考试《教育心理学》题库精品.. 122页

县乡教师选调进城考试《教育法律法规》题库1套.. 132页

县乡教师选调进城考试《教育法律法规》题库及.. 130页

县乡教师选调进城考试《教育法律法规》题库精.. 131页

科普知识竞赛题库100道【名校卷】 18页

职业教育法考试题库含答案【能力提升】 26页

职业教育法考试题库附完整答案【历年真题】 26页

冠状动脉搭桥术后的生活质量提升 25页

冠状动脉搭桥术后疼痛评估方法 27页

冠状动脉搭桥术后康复进度监测 30页

农行网点6S管理手册的检查要求 33页

农业农村行业创业计划书 40页

内训师的学习评估与效果管理 23页

关节软骨损伤的诊断与治疗方法 32页

公司培训管理设计方案的合规性与法律风险分析.. 25页

全科医生的耳鼻喉科疾病诊断鉴别与治疗 27页

全科医生的儿童健康监护模式 27页

全科医学概论研究医疗技术的发展和应用 26页

全科医学教育的疾病管理与慢性病防控 26页

全科医学教育的创新与创业能力培养 28页

全科医学教育中的临床技能培养 26页

全科医学培养的课程设置与内容 35页

全科医学人才的学习方法与学习策略 30页

党支部发展党工会工作 26页