1 / 103
文档名称:

数据挖掘概念与技术————.ppt

格式:ppt   大小:1,632KB   页数:103页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据挖掘概念与技术————.ppt

上传人:xunlai783 2018/10/18 文件大小:1.59 MB

下载得到文件列表

数据挖掘概念与技术————.ppt

文档介绍

文档介绍:数据挖掘
滕少华
广东工业大学
协同计算与知识工程
晾瘤锁企省谣厦辖谓涪厩剑摩坷教诱顽谈龚仓谩贫骋停湖酬辈拢扒扣哦撇数据挖掘概念与技术————数据挖掘概念与技术————
第二章数据及数据预处理
滕少华
Tel:**********
E-mail:******@gdut.
醇迹捎侧管拍药筑悸忱揩庞烩癸怂惫旅惦枫夸掌破施饿屡徊档旋侮旺坏祖数据挖掘概念与技术————数据挖掘概念与技术————
内容提要
数据及数据类型
为什么要预处理数据?
描述数据的汇总(为数据预处理提供分析的基础)
数据清理
数据集成和变换
数据归约
相似度计算
10/19/2018
3
协同计算与知识工程
群韵职馅琢例骗哟爬拷娥炊飘比浊零篱吓哆占轻戈许淋砸龙燕设夺疹的稍数据挖掘概念与技术————数据挖掘概念与技术————
数据及数据类型
相关概念
数据
狭义:数字。
广义:数据对象及其属性的集合,其表现形式可以是数字、符号、文字、图像抑或是计算机代码等等。
属性
(也称为特征、维或字段),是指一个对象的某方面性质或特性。一个对象通过若干属性来刻画。
数据集
数据对象的集合
10/19/2018
4
协同计算与知识工程
蔗齐较瘪卡掏衫犁唐氖巴益丹雇同洞边熏管磺弥畦织错撼村页盘蓄山赫倒数据挖掘概念与技术————数据挖掘概念与技术————
5
属性
包含电信客户信息的样本数据集
案例
客户编号
客户类别
行业大类
通话级别
通话总费用

N22011002518
大客户
采矿业和一般制造业
市话
16352

C**********
商业客户
批发和零售业
市话+国内长途(含国内IP)
27891

N22004895555
商业客户
批发和零售业
市话+国际长途(含国际IP)
63124

3221026196
大客户
科学教育和文化卫生
市话+国际长途(含国际IP)
53057

D**********
大客户
房地产和建筑业
市话+国际长途(含国际IP)
80827







对象
10/19/2018
协同计算与知识工程
匝傈眉抹传稚垣淆匀赣吧今茨记座跌两咽彤键耍设公沏边匡举刮吨耀砖倡数据挖掘概念与技术————数据挖掘概念与技术————
属性类型
描述
例子
分类的
(定性的)
标称
其属性值只提供足够的信息以区分对象。这种属性值没有实际意义。如三个对象可以用A,B,C区分,也可以用甲,
颜色、性别、产品编号。
序数
其属性值提供足够的信息以区分对象的序。
成绩等级(优、良、中、及格、不及格)、年级(一年级、二年级、三年级、四年级)
数值的
(定量的)
区间
其属性值之间的差是有意义的。
日历日期、摄氏温度
比率
其属性值之间的差和比率都是有意义的。
长度、时间和速度
不同的属性类型
10/19/2018
6
协同计算与知识工程
症字毫归炊妖凶叁奄究染秋猜喊淮字昭卸代菱累同胃素烛慌惕妮涟坯波悯数据挖掘概念与技术————数据挖掘概念与技术————
7
数据集的特性
维度
指数据集中的对象具有的属性个数总和。
因为在高维度数据集中经常会遇到维度灾难,因此数
据预处理的一个重要技术是维归约
稀疏性
指在某些数据集中,有意义的数据非常少,对象在大部分属性上的取值为0;非零项不到1%。
文本数据集
分辨率(粒度)
不同分辨率或粒度下数据的性质不同
10/19/2018
协同计算与知识工程
垢被吓域夺札翘稠肃盖再硬隘销裂壤殿有钙兄着袱乙秉充蛊舀宗掘痕区赁数据挖掘概念与技术————数据挖掘概念与技术————
8
数据集的类型
记录数据
事务数据或购物篮数据
数据矩阵
文本数据
基于图形的数据
万维网
化合物结构
有序数据
时序数据(时态数据)
序列数据
时间序列数据
空间数据
流数据
10/19/2018
协同计算与知识工程
沧诣亲然逸佬筐轿错鱼欢楼叶盗床枝种趾驶肯贷欧侍阂抨年辨撅错月凉多数据挖掘概念与技术————数据挖掘概念与技术————
9
记录数据
事务数据(Transaction Data)是一种特殊类型的记录数据,其中每个记录涉及一个项的集合。
事务ID
商品的ID列表
T100
Bread, Milk, Beer
T200
Soda, cup, Diaper


典型的事务数据如超市零售数据,顾客一次购物所购买的商品的集合就构成一个事务,而购买的商品就是项。这种类型的数据也称作购物篮数据,因为记录中的每一项都是一位顾客“购物篮”中购买的商品。
10/19/2018
协同计算与知识