1 / 103
文档名称:

数据挖掘概念与技术————.ppt

格式:ppt   大小:2,698KB   页数:103页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据挖掘概念与技术————.ppt

上传人:新起点 2018/10/10 文件大小:2.63 MB

下载得到文件列表

数据挖掘概念与技术————.ppt

文档介绍

文档介绍:数据挖掘
滕少华
广东工业大学
协同计算与知识工程
第二章数据及数据预处理
滕少华
Tel:**********
E-mail:******@gdut.
内容提要
数据及数据类型
为什么要预处理数据?
描述数据的汇总(为数据预处理提供分析的基础)
数据清理
数据集成和变换
数据归约
相似度计算
11 十月 2018
3
协同计算与知识工程
数据及数据类型
相关概念
数据
狭义:数字。
广义:数据对象及其属性的集合,其表现形式可以是数字、符号、文字、图像抑或是计算机代码等等。
属性
(也称为特征、维或字段),是指一个对象的某方面性质或特性。一个对象通过若干属性来刻画。
数据集
数据对象的集合
11 十月 2018
4
协同计算与知识工程
5
属性
包含电信客户信息的样本数据集
案例
客户编号
客户类别
行业大类
通话级别
通话总费用

N22011002518
大客户
采矿业和一般制造业
市话
16352

C**********
商业客户
批发和零售业
市话+国内长途(含国内IP)
27891

N22004895555
商业客户
批发和零售业
市话+国际长途(含国际IP)
63124

3221026196
大客户
科学教育和文化卫生
市话+国际长途(含国际IP)
53057

D**********
大客户
房地产和建筑业
市话+国际长途(含国际IP)
80827







对象
11 十月 2018
协同计算与知识工程
属性类型
描述
例子
分类的
(定性的)
标称
其属性值只提供足够的信息以区分对象。这种属性值没有实际意义。如三个对象可以用A,B,C区分,也可以用甲,
颜色、性别、产品编号。
序数
其属性值提供足够的信息以区分对象的序。
成绩等级(优、良、中、及格、不及格)、年级(一年级、二年级、三年级、四年级)
数值的
(定量的)
区间
其属性值之间的差是有意义的。
日历日期、摄氏温度
比率
其属性值之间的差和比率都是有意义的。
长度、时间和速度
不同的属性类型
11 十月 2018
6
协同计算与知识工程
7
数据集的特性
维度
指数据集中的对象具有的属性个数总和。
因为在高维度数据集中经常会遇到维度灾难,因此数
据预处理的一个重要技术是维归约
稀疏性
指在某些数据集中,有意义的数据非常少,对象在大部分属性上的取值为0;非零项不到1%。
文本数据集
分辨率(粒度)
不同分辨率或粒度下数据的性质不同
11 十月 2018
协同计算与知识工程
8
数据集的类型
记录数据
事务数据或购物篮数据
数据矩阵
文本数据
基于图形的数据
万维网
化合物结构
有序数据
时序数据(时态数据)
序列数据
时间序列数据
空间数据
流数据
11 十月 2018
协同计算与知识工程
9
记录数据
事务数据(Transaction Data)是一种特殊类型的记录数据,其中每个记录涉及一个项的集合。
事务ID
商品的ID列表
T100
Bread, Milk, Beer
T200
Soda, cup, Diaper


典型的事务数据如超市零售数据,顾客一次购物所购买的商品的集合就构成一个事务,而购买的商品就是项。这种类型的数据也称作购物篮数据,因为记录中的每一项都是一位顾客“购物篮”中购买的商品。
11 十月 2018
协同计算与知识工程
10
数据矩阵
如果一个数据集簇中的所有数据对象都具有相同的数值属性集,则数据对象可以看作多维空间中的点,其中每个维代表描述对象的一个不同属性。
数据集可以用一个m×n的矩阵表示,其中m行,一个对象一行;n列,一个属性一列。
11 十月 2018
协同计算与知识工程