文档介绍：word
word
1 / 12
word
数据挖掘考试题
选择题
1. 当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相别离？()
2. ( )将两个簇的邻近度定义为不同簇的所有点对邻近度的平均值，它是一种凝聚层次聚类技术。
“啤酒与尿布试验〞最主要是应用了( )数据挖掘方法。
A 分类 B 预测 C关联规如此分析 D聚类
，以下说法不正确的答案是( )
，而DBSCAN一般聚类所有对象。
，DBSCAN使用基于密度的概念。
，DBSCAN可以处理不同大小和不同形状的簇
，即便簇有重叠也可以发现，但是DBSCAN会合并有重叠的簇
’s Method说法错误的答案是：( )
点敏感度比拟小
，两个簇的邻近度定义为两个簇合并时导致的平方误差
，Ward方法与组平均非常相似
word
word
3 / 12
word
如下关于层次聚类存在的问题说法正确的答案是：( )
具有全局优化目标函数
Group Average擅长处理球状的簇
可以处理不同大小簇的能力
Max对噪声点和离群点很敏感
，说法错误的事：( )
，该操作就不能撤销
{牛奶，尿布}→{啤酒}的支持度和置信度分别为：( )
TID
项集
1
2
3
4
5
{面包，牛奶}
{面包，尿布，啤酒，鸡蛋}
{牛奶，尿布，啤酒，可乐}
{面包，牛奶，尿布，啤酒}
{面包，牛奶，尿布，可乐}
( )是属于分裂层次聚类的方法。
，簇间相似度使用MAX计算，第二步是哪两个簇合并：( )
word
word
3 / 12
word
{3}和{l,2}合并 B.{3}和{4,5}合并 C.{2,3}和{4,5}合并
D. {2,3}和{4,5}形成簇和{3}合并
填空题：
属性包括的四种类型：、、、。
是两个簇的邻近度定义为不同簇的所有点对邻近度的平均值。
3. 根本凝聚层次聚类算法空间复杂度，时间复杂度，如果某个簇到其他所有簇的距离存放在一个有序表或堆中，层次聚类所需要的时间复杂度将为。
4. 聚类中，定义簇间的相似度的方法有〔写出四个〕：、、、。
5. 层次聚类技术是第二类重要的聚类方法。两种层次聚类的根本方法：、。
6. 组平均是一种界于和之间的折中方法。
7. 相似度矩阵可以用相识度表示还可以用表示。
8. 全链在处理大小不同的簇时，可能使破裂，并且偏好。
9. 单链技术擅长于处理，但对和很敏感。
10. 聚类分析可以看做是一种的分类。〔有监视、无监视〕
三．判断题
word
word
4 / 12
word
从点作为个体簇开始，每一步合并两个最接近的簇，这是一种分裂的层次聚类方法。〔〕
数据挖掘的目标不在于数据采集策略，而在于对已经存在的数据进展模式的开掘。〔〕
在聚类分析当中，簇内的相似性越大，簇间的差异越大，聚类的效果就越差。〔〕
当两个点之间的邻近度取它们之间距离的平方时，Ward方法与组平均非常相似。〔〕
DBSCAN是相对抗噪声的，并且能够处理任意形状和大小的簇。〔〕
属性的性质不必与用来度量他的值的性质一样。〔〕
全链对噪声点和离群点很敏感。〔〕
对于非对称的属性，只有非零值才是重要的。〔〕
K均值可以很好的处理不同密度的数据。〔〕
单链技术擅长处理椭圆形状的簇。〔〕
四．综合题
1. 何为层次聚类？它用哪两种图表示？ 
2. 两种层次聚类的根本方法？两种方法的定义？
分别写出Min、Max和组平均的优缺点？
写出根本凝聚层次聚类的算法？
由如下图已给出的距离矩阵，将Max用于6个点样本数据集，画出层次聚类的树状图？
P1
P2
P3
P4
P5
P6
word
word
5 / 12
word
P1
P2
P3
P4
P5
P6
考试题+答案
一