文档介绍:《数据挖掘》作业
第一章引言
一、填空题
数据库中的知识挖掘(KDD)包括以下七个步骤:、、
、、、 和
数据挖掘的性能问题主要包括:、 和
当前的数据挖掘研究中,最主要的三个研究方向是:、 和
在万维网(WWW)上应用的 : customer, W) A Q(X, Y) => buys (X, Z)
所指定的挖掘知识类型是:
A、特征化 B、区分 C、关联 D、分类
以下哪种数据挖掘系统与数据库/数据仓库系统集成方式将会使数据挖掘系统达到最好 的性能?
A、不耦合 B、松散耦合 C、半紧密耦合 D、紧密耦合
三、 多选题
以下哪些OLAP操作是和概念分层紧密相关的?
A、上卷 B、切片 C、下钻 D、切块
四、 简答题
定义数据挖掘任务的原语,主要应该包括哪些部分?
为什么需要数据挖掘原语和语言来指导数据挖掘?
描述如下将数据挖掘系统与数据库或数据仓库系统集成的结构之间的差别:不耦合、 松散耦合、半紧密耦合和紧密耦合。
数据挖掘的GUI可能包含哪些部分?
第五章概念描述:特征化与比较
一、填空题
概念描述由 和 组成。
一般来说,进行类比较的过程应该包括以下几个步骤:、、
和
从数据分析的角度看,数据挖掘可以分为两类: 和
属性相关分析的基本思想是计算某种度量,用于量化属性与给定类或概念的相关性。 可米用的度量包括:、、和
数据离散度的最常用度量包括:、和
二、单选题
类比较的过程中,我们在哪个步骤得到主目标类 关系/方体和主对比类 关系/方体?
A、数据收集 B、维相关分析 C、同步概化 D、导出比较的表示
哪种图形显示方法常用于描述两个变量间的依赖模式?
A、直方图 B、分位数图 C、散布图 D、LOESS曲线
哪种图形显示方法常用于确定两个量化的变量之间看上去是否有联系、模式或者趋势?
A、直方图 B、分位数图 C、散布图 D、LOESS曲线
哪种图形显示方法用于显示所有的数据,允许用户评估总的情况和不寻常情况的出现?
A、直方图 B、分位数图 C、散布图 D、LOESS曲线
中心趋势度量模(mode)是指
A、算术平均值 B、数据集中出现频率最高的值 C、最大值 D、最小值
下面哪些是常用的数据概化方法?
A、离散化 B、数据立方体(OLAP技术)
C、判定归纳树 D、面向属性的归纳
使用数据立方体方法进行数据概化的优点包括:
A、 数据概化的一种有效实现
B、 可以计算各种不同的度量值
C、 受数据类型和度量类型的约束比较少
D、 概化和特征分析通过一系列的数据立方体操作完成,简单高效
以下哪些是属于中心趋势的度量
A、平均值 B、标准差 C、五数概括 D、中位数
四、简答题
简述类比较的过程。
简述面向属性归纳的基本思想,并说明什么时候使用属性删除,什么时候使用属性概 化。
简述概念描述的属性相关分析的基本步骤。
简要叙述概念描述和OLAP之间的主要区别。
为什么进行属性相关分析?
简述进行概念描述时,面向数据库的方法和机器学****的主要区别。
什么是概念描述的增量挖掘?
第六章大型数据库中的关联规则挖掘
一、填空题
关联规则挖掘中,两个主要的兴趣度度量是:和
Aprior算法包括 和 两个基本步骤
(3 )项集的频率是指
大型数据库中的关联规则挖掘包含两个过程:和
根据规则中所处理的值类型,关联规则可分为:和
(6) Apriori性质是指:
(7) 挖掘多维关联规则的技术可以根据量化属性的处理分为三种基本方法:
和
(8) 对于频繁项集挖掘,在挖掘过程中使用的约束包括以下五种类型:、
、、 和
(9) 在多维关联规则挖掘中,我们搜索的不是频繁项集,而是
A、关联分析
B、分类和预测
C、聚类分析
D、
演变分析
(2)支持度(support)是衡量兴趣度度量(
)的指标。
A、实用性
B、确定性
C.、简洁性
D、
新颖性
(3)置信度(confidence)是衡量兴趣度度量(
)的指标。
A、简洁性
B、确定性
C.、实用性
D、
新颖性
)
二、单选题
(1)下列几种数据挖掘功能中,()被广泛的用于购物篮分析。
(4) 根据关联分析中所处理的值类型,
A、布尔关联规则和量化关联规则
C、单层关联规则和多层关联规则
(5) 规则:age(X,"19-25”) AbuysfX,
A、单维关联规则
C、混合维关联规则
可以将关联规则分类为:
B、单维关联规则和多维关联规则
D、简答关联规则和复杂关联规则
“coke”)是一个
"popcorn ") => buys(X,
B、