1 / 58
文档名称:

厦门大学数据挖掘数据准备参考.ppt

格式:ppt   大小:658KB   页数:58页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

厦门大学数据挖掘数据准备参考.ppt

上传人:xiang1982071 2018/3/9 文件大小:658 KB

下载得到文件列表

厦门大学数据挖掘数据准备参考.ppt

相关文档

文档介绍

文档介绍:第三章数据准备
§ 问题的提出
§ 数据选择
§ 数据预处理
§ 数据变换
3/9/2018
1
§ 问题的提出
我们在上面已经提及到,随着各种技术的不断发展,收集数据的技术和渠道日益广泛,比如银行业通过信用卡消费记录,连锁超市通过POS机记录销售情况,企业通过专题市场调查或者直接通过向外购买数据来搜集信息等等,这些收集到的数据储存到企业的数据库或数据仓库中,,如市场调查中的无回答,数据输入错误等,,数据缺失、异常点的出现等,都会为数据的挖掘带来困难.
3/9/2018
2
,,,在本章我们探讨数据的准备.
3/9/2018
3
§ 数据选择
一、数据读取
,,,,就可以在数据记录
格式上进行一些选择.
3/9/2018
4
如果所需的数据是从外部数据源或另外一个的内部数据源获得的,(flat file)或文本文件,行记录或观察样本,,即固定长度格式和可变长度格式.
3/9/2018
5
二、原始数据的表述
数据样本是数据挖掘过程的基本组成部分
3/9/2018
6
每个样本都用几个特征来描述,每个特征有不同类型的值。
常见的类型有:数值型和分类型。
数值型包括实型变量和整型变量
注:具有数值型值的特征有两个重要的属性:其值有顺序关系和距离关系。
3/9/2018
7
分类型变量的两个值可以相等或不等。
一个有两个值的分类型变量原则上可以转化成一个二进制的数值型变量,这种数值型变量有两个值:0或1;而有N值的分类型变量原则上可以转化成一个二进制的数值型变量,这种数值型变量有N个值。
3/9/2018
8
例如:如果变量“眼睛颜色”有4个值:黑色、蓝色、绿色、褐色。
特征值编码
黑色 1000
蓝色 0100
绿色 0010
褐色 0001
3/9/2018
9
三、数据分类
一种基于变量值的数据分类方法就是定性(qualitative)和定量(quantitative).定性数据也可以看作是离散型数据,,性别通常分为男性(M)和女性(F).有一种特殊的定性数据就是周期型数据,例如星期、月或年中的日期.
3/9/2018
10