文档介绍:该【第4讲数据分类-决策树 】是由【qqqqqq】上传分享,文档一共【62】页,该文档可以免费在线阅读,需要了解更多关于【第4讲数据分类-决策树 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。第4讲 数据(shùjù)分类-决策树
第一页,共六十二页。
1
目录(mùlù)
根本概念
决策树ID3算法(suàn fǎ)
第二页,共六十二页。
2
本周学习(xuéxí)目标
(shùjù)分类的根本原理和评价指标
第三页,共六十二页。
3
Part I
数据(shùjù)分类的根本概念
第四页,共六十二页。
4
定义(dìngyì)
数据分类
是指把数据样本(yàngběn)映射到一个事先定义的类中的学习过程
即给定一组输入的属性向量及其对应的类,用基于归纳的学习算法得出分类
分类问题是数据挖掘领域中研究和应用最为广泛的技术之一,如何更精确、更有效地分类一直是人们追求的目标
数据分类的任务
通过学习得到一个目标函数f,把每个属性集x映射到一个预先定义的类标号y
第五页,共六十二页。
5
分类(fēn lèi)的例如
两类分类例如
银行业:区分高端信用卡和低端信用卡
医疗诊断:区分正常细胞和癌细胞
互联网:区分正常邮件和垃圾邮件
多类分类例如
油气传输:区分行人走过、汽车碾过、镐刨、电钻等行为
文字识别:区分不同的字符〔其中汉字识别是一个大类别问题〕
社会网络(wǎngluò):区分中心用户、活泼用户、不活泼用户、马甲用户等
第六页,共六十二页。
6
例如(shìlì)数据集
数据集包含多个描述属性和一个类别属性
一般来说
描述属性:连续(liánxù)值或离散值
类别属性:只能是离散值〔目标属性连续对应回归问题〕
Age
Salary
Class
30
high
c1
25
high
c2
21
low
c2
43
high
c1
18
low
c2
33
low
c1
......
......
......
第七页,共六十二页。
7
分类(fēn lèi)问题的形式化描述
第八页,共六十二页。
8
分类(fēn lèi)的过程
获取数据
预处理
分类(fēn lèi)决策
分类器设计
第九页,共六十二页。
9
获取数据
数值型数据
病例中的各种化验数据
空气质量监测数据
描述性数据
人事部门档案资料
图片(túpiàn)型数据
指纹、掌纹
自然场景图片
很多情况下,需要将上述数据统一转换为数值型数据序列,即形成特征向量〔特征提取〕
第十页,共六十二页。
10