1 / 151
文档名称:

数据挖掘技术方法(P151).ppt

格式:ppt   大小:3,187KB   页数:151页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据挖掘技术方法(P151).ppt

上传人:vqjyga55 2018/1/20 文件大小:3.11 MB

下载得到文件列表

数据挖掘技术方法(P151).ppt

文档介绍

文档介绍:商务智能
数据挖掘技术
分类和预测
2
分类
对离散数据的分类称为分类,对数值数据的分类称为预测。
分类要解决的问题是为一个事件或对象归类,即确定一个特定的对象属于哪一类。分类函数或分类模型(分类器)
分类模型是通过那些已知历史数据训练出来的。
这里用于建立模型的数据称为训练集,通常是已经掌握的历史数据。
在训练集中每个对象都赋予一个类别的标记,不同的类别具有不同的标记。
分类就是通过分析训练集中的数据,为每个类别做出准确的描述或建立分析模型或挖掘出分类规则,然后用这个分类规则对其它数据对象进行分类。
3
分类规则实例
低风险
收入>¥40,000
工作时间>5年
高负债
高风险
高风险
低风险






If 收入¥40,000 而且工作时间>5年 then低风险
4
分类数据
The data used to build a classification model consists of
A set of records.
Each record has the same number of fields.
One field in these record contains indicators of classes which records belong to. This field is called target field.
Other fields are called independent fields which describe the individual objects represented by the records.
5
决策表实例
6
决策树
are widely used in data mining.
were developed in machine learning and statistics.
are used to build classification and prediction models.
are widely available.
判定树分类算法
output
训练集
决策树
input
新数据
分类
7
使用决策树进行分类
决策树
一个树形的结构
内部节点上选用一个属性进行分割
每个分叉都是分割的一个部分
叶子节点表示一个分类
决策树生成算法分成两个步骤
树的生成
开始,数据都在根节点
递归的进行数据分片
树的修剪:去掉一些可能是噪音或者异常的数据
决策树使用: 对未知数据进行分割
按照决策树上采用的分割属性逐层往下,直到叶子节点
8
决策树算法
基本算法(贪心算法)
自上而下分而治之的方法
开始时所有的实例都在根节点
属性都是分类型(如果是连续的,将其离散化)
所有记录用所选属性递归的进行分割
属性的选择是基于一个启发式规则或者一个统计的度量(如信息增益)
停止分割的条件
一个节点上的实例都属于同一个类别;
没有属性可以再用于对数据进行分割
9
属性选择的统计度量
信息增益—Information gain (ID3/)
所有属性假设都是分类型字段
经过修改之后可以适用于数值型字段
基尼指数—Gini index (IBM Intelligent Miner)
能够适用于分类和数值字段
其他
10