文档介绍:该【数据挖掘考试题 】是由【幸福人生】上传分享,文档一共【15】页,该文档可以免费在线阅读,需要了解更多关于【数据挖掘考试题 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。数据挖掘考试题
数据挖掘考试题
选择题
,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?()
2.()将两个簇的邻近度定义为不同簇的所有点对邻近度的平均值,它是一种凝聚层次聚类技术。
(单链)(全链)
“啤酒与尿布试验”最主要是应用了()数据挖掘方法。
A分类B预测C关联规则分析D聚类
,以下说法不正确的是()
,而DBSCAN一般聚类所有对象。
,DBSCAN
{牛奶,尿布}→{啤酒}的支持度和置信度分别为:()
TID
项集
1
2
3
4
5
{面包,牛奶}
{面包,尿布,啤酒,鸡蛋}
{牛奶,尿布,啤酒,可乐}
{面包,牛奶,尿布,啤酒}
{面包,牛奶,尿布,可乐}
,,,,
()是属于分裂层次聚类的方法。
,簇间相似度使用MAX计算,第二步是哪两个簇合并:()
{3}和{l,2}合并B.{3}和{4,5}合并C.{2,3}和{4,5}合并
D.{2,3}和{4,5}形成簇和{3}合并
填空题:
属性包括的四种类型:、、、。
是两个簇的邻近度定义为不同簇的所有点对邻近度的平均值。
,时间复杂度,如果某个簇到其他所有簇的距离存放在一个有序表或堆中,层次聚类所需要的时间复杂度将为。
,定义簇间的相似度的方法有(写出四个):
、、、。
。两种层次聚类的基本方法:、。
。
。
,可能使破裂,并且偏好。
,但对和很敏感。
。(有监督、无监督)
从点作为个体簇开始,每一步合并两个最接近的簇,这是一种分裂的层次聚类方法。()
数据挖掘的目标不在于数据采集策略,而在于对已经存在的数据进行模式的发掘。
()
在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。()
当两个点之间的邻近度取它们之间距离的平方时,Ward方法与组平均非常相似。()
DBSCAN是相对抗噪声的,并且能够处理任意形状和大小的簇。()
属性的性质不必与用来度量他的值的性质相同。()
全链对噪声点和离群点很敏感。()
对于非对称的属性,只有非零值才是重要的。()
K均值可以很好的处理不同密度的数据。()
单链技术擅长处理椭圆形状的簇。()
?它用哪两种图表示? 
?两种方法的定义?
分别写出Min、Max和组平均的优缺点?
写出基本凝聚层次聚类的算法?
由下图已给出的距离矩阵,将Max用于6个点样本数据集,画出层次聚类的树状图?
P1
P2
P3
P4
P5
P6
P1
P2
P3
P4
P5
P6
考试题+答案
,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?(B)
2.(C)将两个簇的邻近度定义为不同簇的所有点对邻近度的平均值,它是一种凝聚层次聚类技术。
(单链)(全链)
“啤酒与尿布试验”最主要是应用了(C)数据挖掘方法。
A分类B预测C关联规则分析D聚类
,以下说法不正确的是(
A)
,而DBSCAN一般聚类所有对象。
,DBSCAN使用基于密度的概念。
,DBSCAN可以处理不同大小和不同形状的簇
,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇
’sMethod说法错误的是:(C)
,两个簇的邻近度定义为两个簇合并时导致的平方误差
,Ward方法与组平均非常相似
下列关于层次聚类存在的问题说法正确的是:(B)
A具有全局优化目标函数
,说法错误的事:(D)
,该操作就不能撤销
{牛奶,尿布}→{啤酒}的支持度和置信度分别为:(C)
TID
项集
1
2
3
4
5
{面包,牛奶}
{面包,尿布,啤酒,鸡蛋}
{牛奶,尿布,啤酒,可乐}
{面包,牛奶,尿布,啤酒}
{面包,牛奶,尿布,可乐}
,,,,