1 / 54
文档名称:

数据挖掘分类.ppt

格式:ppt   大小:445KB   页数:54页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据挖掘分类.ppt

上传人:1485173816 2021/6/10 文件大小:445 KB

下载得到文件列表

数据挖掘分类.ppt

文档介绍

文档介绍:数据挖掘分类
数据挖掘分类数据挖掘分类Classification
主要用于对离散的数据进行预测
分为两步:
根据训练集,构造分类模型(训练集中每个元组的分类标号事先已经知道)
估计分类模型的准确性,如果其准确性可以接受的话,则利用它来对未来数据进行分类
Prediction:
构造、使用模型来对某个样本的值进行估计,例如预测某个不知道的值或者缺失值
主要用于对连续或有序的数据进行预测
Typical applications
信誉评估
医学诊断
性能预测
Classification vs. Prediction2
通过阅读报刊,我们能增长见识,扩大自己的知识面。
Classification
主要用于对离散的数据进行预测
分为两步:
根据训练集,构造分类模型(训练集中每个元组的分类标号事先已经知道)
估计分类模型的准确性,如果其准确性可以接受的话,则利用它来对未来数据进行分类
Prediction:
构造、使用模型来对某个样本的值进行估计,例如预测某个不知道的值或者缺失值
主要用于对连续或有序的数据进行预测
Typical applications
信誉评估
医学诊断
性能预测
Classification vs. Prediction
2
Classification—A Two-Step Process
模型构造阶段: describing a set of predetermined classes
假定每个元组/样本都属于某个预定义的类,这些类由分类标号属性所定义
用来构造模型的元组/样本集被称为训练集(training set)
模型一般表示为:分类规则, 决策树或者数学公式
模型使用阶段: for classifying future or unknown objects
估计模型的准确性
用一些已知分类标号的测试集和由模型进行分类的结果进行比较
两个结果相同所占的比率称为准确率
测试集和训练集必须不相关
如果准确性可以接受的话, 使用模型来对那些不知道分类标号的数据进行分类。
3
Classification Process (1): Model Construction
Training
Data
Classification
Algorithms
IF rank = ‘professor’
OR years > 6
THEN tenured = ‘yes’
Classifier
(Model)
4
Classification Process (2): Use the Model in Prediction
Classifier
Testing
Data
Unseen Data
(Jeff, Professor, 4)
Tenured?
5
分类和预测相关问题 (1): 数据预处理
数据清洗
对数据进行预处理,去掉噪声,对缺失数据进行处理(用某个最常用的值代替或者根据统计用某个最可能的值代替)
相关分析 (特征选择)
去掉某些不相关的或者冗余的属性
数据转换
对数据进行概括(如将连续的值离散成若干个区域,将街道等上升到城市)
对数据进行规范化,将某个属性的值缩小到某个指定的范围之内
6
分类和预测相关问题 (2): 对分类方法进行评价
准确性: 分类准确性和预测准确性
速度和可伸缩性
构造模型的时间 (训练时间)
使用模型的时间 (分类/预测时间)
鲁棒性
能够处理噪声和缺失数据
可伸缩性
对磁盘级的数据库有效
易交互性
模型容易理解,具有较好的洞察力
7
Visualization of a Decision Tree in SGI/MineSet
2021/6/10
8
Supervised vs. Unsupervised Learning
Supervised learning (classification)
Supervision: The training data (observations, measurements, etc.) are accompanied by labels indicating the class of the observations
New data is classified based on the training set
Unsupervised learning (clustering)
The class labels of training data is unknown
Given a set of measurements, observations, etc. with the aim of establish