1 / 24
文档名称:

数据挖掘复习题纲.doc

格式:doc   大小:6,761KB   页数:24页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据挖掘复习题纲.doc

上传人:HShess 2022/3/30 文件大小:6.60 MB

下载得到文件列表

数据挖掘复习题纲.doc

文档介绍

文档介绍:数据挖掘复****题纲
一、
数据仓库与数据库有何不同?它们有哪些相似之处?
简而言之,数据库是面向事务的设计,数据仓库是面向主题设计的。
数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。
数据库设
,它在数据元组中的值(以递増)为13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70
A)该数据的均值是多少?中位数是什么?
B)该数据的众数是什么?讨论数据的模态(即二模,三模等)。
C)该数据的中列数是多少
D)你能(粗略地)找出该据的第一个四分位数(Q1)和第三个四分位数(Q3)吗?
E)给出该数据的五数概括。
F)绘制出该数据的盒图。
G)分位数——分位数图与分位数图有何不同?
解答:
(a) 该数据的均值是什么?中位数是什么?
(b) 该数据的众数是什么?讨论数据的峰(即双峰、三峰等)。
这个数集的众数有两个:25 和35,发生在同样最高的频率处,因此是双峰
众数。
(c) 数据的中列数是什么?
数据的中列数是最大术和最小是的均值。即:midrange=(70+13)/2=。
(d) 你能(粗略地)找出数据的第一个四分位数(Q1)和第三个四分位数(Q3)
吗?
数据集的第一个四分位数应发生在25%处,即在(N+1)/4=7 处。所以:Q1=20。
而第三个四分位数应发生在75%处,即在3×(N+1)/4=21 处。所以:Q3=35
(e) 给出数据的五数概括。
一个数据集的分布的5 数概括由最小值、第一个四分位数、中位数、第三个
四分位数、和最大值构成。它给出了分布形状良好的汇总,并且这些数据是:13、
20、25、35、70。
(f) 画出数据的盒图。
略。
(g) 分位数—分位数图与分位数图的不同之处是什么?
分位数图是一种用来展示数据值低于或等于在一个单变量分布中独立的变
量的粗略百分比。这样,他可以展示所有数的分位数信息,而为独立变量测得的
值(纵轴)相对于它们的分位数(横轴)被描绘出来。
但分位数—分位数图用纵轴表示一种单变量分布的分位数,用横轴表示另一
单变量分布的分位数。两个坐标轴显示它们的测量值相应分布的值域,且点按照
两种分布分位数值展示。一条线(y=x)可画到图中,以增加图像的信息。落在
该线以上的点表示在y 轴上显示的值的分布比x 轴的相应的等同分位数对应的值
的分布高。反之,对落在该线以下的点则低。
。这些区间和对应频率如下所示:
Age frequency
1-5 200
6-15 450
16-20 300
21-50 1500
51-80 700
80-110 44
计算该数据的近似中位数。
,得到如下结果:
Age 23 23 27 27 39 41 47 49 50
Fat
Age 52 54 54 56 57 58 58 60 61
Fat
计算age和%fat的均值,中位数和标准差。
绘制age和%fat的盒图。
绘制基于这两个变量的散点图和q-q图。

,age包括如下值(以递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70.
使用蒌3的箱,用箱均值光滑以上数据。说明你的步骤,讨论这种技术对缎带定数据的效果。
如何确定该数据中的离群点?
还有什么其他方法来光滑数据?
(a) 使用分箱均值光滑对以上数据进行光滑,箱的深度为3。解释你的步骤。
评述对于给定的数据,该技术的效果。
用箱深度为3 的分箱均值光滑对以上数据进行光滑需要以下步骤:
􀁺 步骤1:对数据排序。(因为数据已被排序,所以此时不需要该步骤。)
􀁺 步骤2:将数据划分到大小为3 的等频箱中。
箱1:13,15,16 箱2:16,19,20 箱3:20,21,22
箱4:22,25,25 箱5:25,25,30 箱6:33,3