文档介绍:第4章分类
Chapter 4: Classification
信息管理学院
数据挖掘十大算法
The k-means algorithm
The Apriori algorithm
Expectation–Maximization
PageRank
AdaBoost
分类算法
CART
Naive Bayes
k-nearest neighbor classification
Support vector machines
CART
Naive Bayes
k-nearest neighbor classification
Support vector machines
CART
Naive Bayes
k-nearest neighbor classification
Support vector machines
决策树分类算法
主要内容
概念
决策树分类方法
朴素贝叶斯分类方法
k近邻分类方法
分类性能的度量
基本概念
信息管理学院
分类(classification):总结已有类别的对象的特点并进而进行未知类别对象的类别预测的过程
用给定的训练集用来建立一个分类模型(或称分类器),所建立的分类模型用来预测数据库中类标号未知的数据元组的类别。
训练数据集由一组数据库元组(称为训练样本、实例或对象)构成
样本形式为(v1,v2,…,vn;c),
其中vi表示属性值,c表示类标号。
分类及其相关的基本概念
分类及其相关的基本概念
分类器(classifier)
训练数据集(training dataset)
分类属性(class label attribute),每个取值称为一个类别(class label)
属性,用于描述一个对象的某个特性或性质
测试数据集(testing dataset)
信息管理学院
分类属于有监督学****还是无监督学****br/>有监督学****classification)
训练集是带有类标签的; 新的数据是基于训练集进行分类的
无监督学****clustering)
训练集是没有类标签的;提供一组属性,然后寻找出训练集中存在的类别或者聚集
信息管理学院
人口、收入、信用
——购买力
性别、年龄、
婚姻状况、收入
——信用等级
地点、产品、折扣
——促销效果
性别、收入、兴趣
——偏好产品类型
信用评分
营销策略
市场预测
CRM
分类算法的应用领域
分类及其相关的基本概念
客户编号
年龄
性别
年收入(万)
婚姻
豪华车
1
<30
女
86
已婚
否
2
<30
男
65
单身
否
3
<30
男
90
离异
否
4
<30
女
75
已婚
否
5
30-50
女
82
已婚
是
6
30-50
男
91
已婚
是
7
30-50
女
200
离异
是
8
30-50
女
40
单身
否
9
30-50
男
20
离异
否
10
>50
女
96
离异
否
11
>50
女
80
单身
否
12
>50
男
50
单身
是
13
>50
女
80
离异
否
14
>50
男
92
离异
是
分类属性
类别
训练数据集
属性
分类方法
Lazy
Eager
构建模型
测试、使用模型