1 / 40
文档名称:

数据挖掘2.ppt

格式:ppt   大小:487KB   页数:40页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据挖掘2.ppt

上传人:sanshengyuanting 2016/10/27 文件大小:487 KB

下载得到文件列表

数据挖掘2.ppt

相关文档

文档介绍

文档介绍:第二章第二章数据预处理数据预处理东北师大软件学院、理想信息技术研究院Email:Lixy_2008@李献业Data Mining《数据挖掘》2■引言数据挖掘把对数据的应用从低层次的简单查询,提升到高层次的挖掘知识。数据挖掘的研究一般集中在对挖掘技术、挖掘算法和挖掘语言的研究上。事实上,数据挖掘对所处理的数据是有严格要求的,因此,对数据的预处理是至关重要的,一般需要花费整个挖掘过程60%左右的时间。本章讨论数据预处理的一些主要方法。3■为什么要进行数据预处理?在现实社会中,存在着大量的“脏”数据,不能被数据挖掘系统直接使用,表现在以下几个方面:?不完整性(数据结构的设计人员、数据采集设备和数据录入人员)?感兴趣属性的缺失;?感兴趣的属性缺少部分属性值;?仅仅包含聚合数据,没有详细数据;?噪音数据(采集数据的设备、数据录入人员、数据传输)?数据中包含错误的信息;?存在着部分偏离期望值的孤立点;4■为什么要进行数据预处理??不一致性(数据结构的设计人员、数据录入人员)?数据结构的不一致;?Label的不一致;?数据值的不一致;?杂乱性(数据来自多个互相独立的数据源)?关系数据库;?多维数据库(Data Cube);?文件、文档数据库;因此,必须对源数据进行预处理,没有高质量的数据就没有高质量的数据挖掘结果。5一、?数据集可以看作是数据对象的集合。?数据对象的其他名字是记录、点、向量、模式、时间、案例、样本、观测或实体。?数据对象用一组刻画对象基本特征的属性描述。?属性的其他名字是变量、特性、字段、特征或维。例如,下表是学生信息的数据集。每行对应一个学生(对象),每列对应一个属性,用来描述学生的某一方面。……………174cm15男王强03162cm15女刘红02170cm16男李刚01身高年龄性别姓名学号6一、数据描述(1)属性与度量属性:是对象的性质或特性。它因对象而异,随时间而变化。例如,眼球颜色因人而异,物体的温度随时间而变。眼球颜色是一种符号属性,具有可数的值(棕色、黑色、蓝色、褐色等),而温度是数值属性具有无穷多个值。测量标度:是将数或符号的值与对象的属性相关联的规则(函数)。度量:是使用测量标度将一个值与一个特定对象的特定属性相关联。也就是将一个对象属性的“物理值”映射成一个数值或符号值。例如,称体重、测身高、将人分为男女,清点会议室的椅子数目。7一、数据描述(2)属性类型属性分为定性的和定量的。?定性的(分类的):不具有数的大部分性质。即便使用数(整数,如邮政边码、身份证号)表示,也应当像对待符号一样对待它们。又分为标称属性和序数属性。?定量的(数值的):用数表示,并且具有数的大部分性质。可以是整数值或连续值。有分为区间属性和比率属性8一、数据描述(2)属性类型绝对温度、货币量、计数、年龄、质量、长度、电流比率属性值与值之间的差和比率都是有意义的比率日历日期、摄氏或华氏温度区间属性值与值之间的差是有意义的,即存在测量单位区间数值的(定量的)矿石硬度(好,较好,最好)、成绩、街道号码序数属性的值提供足够的信息确定对象的序序数邮政编码、雇员ID号、眼球颜色、性别标称属性的值仅仅是不同的名字,即标称值只提供足够的信息以区分对象标称分类的(定性的)例子描述属性类型9一、数据描述(3)属性的变换属性的类型可以用不改变属性意义的变换来描述。例如,如果长度用米而不是用英尺度量,长度属性的意义并未改变。长度可以用米或英尺度量新值=a*旧值比率华氏和摄氏温度标度零度的位置和1度的大小(单位)不同新值=a*旧值+b,其中a、b是常数区间数值的(定量的){好、较好、最好}的属性可以完全等价地用值{1,2,3}或用{,1,10}表示值得保序变换,即新值=f(旧值),其中f是单调函数序数如果所有雇员的ID号都重新赋值,不会导致任何不同任何一对一变换,例如值的一个排列标称分类的(定性的)注释变换属性类型10一、数据描述(4)用值的个数描述属性区分属性的另一种方法是用属性可能取值的个数。?离散的离散属性具有有限或无限可数个值。例如,邮政编码、ID号、计数。通常离散属性用整数变量表示。二元属性是离散属性的一种特殊情况,只接受两个值(真/假、是/否、男/女、0/1等)。通常。二元属性用布尔变量表示,或者用只取两个值(0或1)的整形变量表示。?连续的连续属性是取实数值的属性。例如,温度、高度、重量等。通常连续属性用浮点变量表示。