1 / 34
文档名称:

决策树算法培训.pptx

格式:pptx   大小:1,034KB   页数:34页
下载后只包含 1 个 PPTX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

决策树算法培训.pptx

上传人:今晚不太方便 2017/5/15 文件大小:1.01 MB

下载得到文件列表

决策树算法培训.pptx

相关文档

文档介绍

文档介绍:决策树介绍什么是决策树? ? 2. ? 决策树可以做什么? 4. 什么是决策树? 1. 决策树( Decision Tree ),又称为判定树,是数据挖掘技术中的一种重要的分类方法,它是一种以树结构(包括二叉树和多叉树)形式来表达的预测分析模型。?通过把实例从根节点排列到某个叶子节点来分类实例; ?叶子节点即为实例所属的分类; ?树上每个节点说明了对实例的某个属性的测试节点的每个后继分支对应于该属性的一个可能值。叶结点根结点内部结点体温胎生非哺乳动物哺乳动物非哺乳动物恒温否冷血是决策树构造流程经过预处理后的数据集, 构建空树。选取未作判断的属性作为测试节点。基于不同的划分标准决策树的背景是什么? 100 万G,印出来可装 2000 万个文件柜。 *** 平均每天产生 亿条消息,而 Facebook 每天则有40亿的信息扩散。世界上访问量最大的网站 google ,每天能处理的数据量高达 20PB 。每分钟的时间里, YouTube 用户会上传 48小时的新视频, 全球电子邮件用户共计发出 亿封电子邮件在影视领域,大数据运用的成功案例当数美剧《纸牌屋》。该剧的制作方既不是电视台,也不是传统的电影公司,而是一家视频播放网站。 2012 年,flix 开始准备推出自制剧。在决定拍什么、怎么拍时, Netflix 抛开了传统的制作方式,启用大数据。通过在该网站上 3000 多万订阅用户每天的点击操作,如收藏、推荐、回放、暂停、搜索请求等, Netflix 进行精准分析,将这些数据用于倒推前台的影片生产。通过对大数据的分析、挖掘, Netflix 发现,其用户中有很多人仍在点播 1990 年 BBC 经典老片《纸牌屋》。这些观众中,又有许多人喜欢导演大卫?芬奇,大多爱看演员凯文?史派西出演的电影。 Netflix 大胆预测,一部影片如果同时满足这几个要素,就可能大卖。于是, 《纸牌屋》出现了,并大获成功。flix 网站发布, 供订阅者观看,完全颠覆了传统的每周一集的播出模式。大数据的到来使得数据挖掘技术得到广泛发展生活中很多地方都需要分类,各种分类技术的诞生为我们节省了大量的时间,决策树作为分类技术的一种,在零售、电子商务、金融、医疗卫生等方面有着广泛的运用。决策树有哪些优点? 1、决策树构造的分类器容易理解; 2、决策树算法的运算速度要快于其他分类方法; 3、决策树分类方法得到的结果的准确率要优于其他算法。决策树方法是一种比较通用的分类函数逼近法,它是一种常用于预测模型的算法,通过将大量数据有目的分类,找到一些有潜在价值的信息。决策树的起源是 CLS ( Concept Learning System ), CLS 是由 Hunt 、 Marin 和 Stone 为了研究人类概念模型而得来的,于 1966 年提出,该模型为很多决策树算法的发展奠定了很好的基础。 1986 年, Quinlan 提出了 ID3 算法。 1984 年, 等人提出了 CART ( Classification and Regression Tree ) 算法。 ? 1993 年, 又提出了 算法,克服了 ID3 算法的一些不足。熵?????? ni pi ipXH 1 2 log (1) 熵越大,随机变量的不确定性越大.?? pH????? log n202??pH条件熵?????? ii ni iixXPpxXYHpXYH???????1||信息增益?????? ADHDHADg|,??对数据集 D进行分类的不确定性在特征 A给定的条件下对数据集 D进行分类的不确定性由特征 A而使得对数据集 D的分类的不确定性减少的程度熵只依赖于 X的分布,与 X的取值无关几个指标信息增益大的特征具有更强的分类能力