1 / 63
文档名称:

数据挖掘概述.ppt

格式:ppt   大小:2,072KB   页数:63页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据挖掘概述.ppt

上传人:电离辐射 2022/7/20 文件大小:2.02 MB

下载得到文件列表

数据挖掘概述.ppt

文档介绍

文档介绍:数据挖掘概述
四、数据挖掘的支撑技术
数据挖掘融合了统计、人工智能及数据库等多种学科的理论、方法和技术
如统计学:除了实验设计与数据挖掘的关系不大,其他几乎所有方法都可以用于数据挖掘,如估计、假设检验、回归分析、主成分分析、时间序S1
S2
S3
S4
S5
S6
S7
S1
0
22
10
14
29
12
24
S2
0
12
8
7
10
2
S3
0
4
19
2
14
S4
0
15
2
10
S5
0
17
5
S6
0
12
S7
0
二元属性:属性的值只接受两个值:如真/假,男/女、是/否等,通常用0/1表示。
则S2与S6之间的相异度为10,而相似度为1/11,有min_d=2,max_d=29,因此,也可以定义相似度为1-(10-2)/(29-2)=19/27。
—相似性度量的例子
。二元数据的相似性度量
两个仅包含二元属性的对象之间的相似性度量也称为相似系数。设x和y是两个对象,都由n个二元属性组成。定义如下四个量
f00=x取0且y取0的属性个数
f01=x取0且y取1的属性个数
f10=x取1且y取0的属性个数
f11=x取1且y取1的属性个数

(Simple Matching Coeffient,SMC),定义如下
SMC=
f00+f11
f00+f11+f10+f01
对于类似顾客是否购买某商品这样的非对称二元数据,这个相似系数则难以体现顾客相同的购买行为。Why?
Jaccard 相似系数。
Jaccard ( Jaccard Coeffient,JC)相似系数定义如下
J=
f11
f11+f10+f01
,计算其SMC和J。
x=(1 0 0 0 1 0 1 0 0 1)
y=(1 0 1 0 1 1 0 0 1 1)
解:f00=
3
f01=
3
f10=
1
f11=
3
因此,SMC=6/10,J=3/7
,计算 它们的相似系数SMC和J。
商品
面包
啤酒
牛奶


鸡蛋

大米
洋葱
大蒜

x
1
0
1
0
0
0
1
0
0
1
0
y
1
0
1
0
0
0
1
0
0
1
0
商品
纯净水
可乐
水饺
口香糖
牙膏
毛巾
洗面奶
洗发水
面粉
味精
派瓜子
x
1
0
0
1
0
1
0
0
0
0
0
y
0
1
0
1
0
0
0
0
0
0
0
余弦相似度
通常类似于文档—词这样的数据,度量其相似性不能依赖共享0的个数,如果统计0-0匹配,则大多数文档都非常相似,因此同样要忽略0-0匹配。这类数据最常用的相似度之一就是余弦相似度,定义如下
Cos(x,y)=xy/(||x||||y||)
广义Jaccard系数
广义Jaccard系数也可以用于文档数据,并在二元属性情况下归约为Jaccard系数,其定义如下:
,分别计算其余弦相似度cos(x,y)和EJ
x= (3 2 0 5 0 0 0 2 0 0)
EJ=xy/(||x||2+||y||2-xy)
y=(1 0 0 3 1 0 6 0 0 1)
相关性
两个具有二元变量或连续的数据之间对象之间的相关性是对象之间线性联系的度量,一般可以用Pearson相关系数(Pearson,s correlation)来描述。其定义如下:
其中
第三章 数据挖掘中的统计方法
一、数据探索
汇总统计

给定一个在{v1,v2,....,vk}取值的分类属性x和m个对象的集合,值vi的频率定义为
f(vi)=具有属性值vi的对象数/m
众数:具有最高频率的分类属性

则年级属性的众数为“一年级”。
对于连续属性,按照目前的定义,众数通常没有用(为什么?),但在某些情况下,众数可能提供关于值的性质或关于出现遗漏值的重要信息。
年级
人数
频率
一年级