1 / 4
文档名称:

数据仓库与数据挖掘考试试题.docx

格式:docx   大小:64KB   页数:4页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据仓库与数据挖掘考试试题.docx

上传人:cby201601 2021/7/31 文件大小:64 KB

下载得到文件列表

数据仓库与数据挖掘考试试题.docx

相关文档

文档介绍

文档介绍:一、填空题(15分)
.数据仓库的特点分别是 面向主题、集成、相对稳定、反映历史变化。
.元数据是描述数据仓库内数据的结构和建立方法的数据。根据元数据用途的不同可将元数据分为 技术
元数据和业务元数据两类。
.OLAP技术多维分析过程中,多维分析操作包括 切片 、 切块、 钻取、旋转 等。
.基于依赖型数据集市和操作型数据存储的数据仓库体系结构常常被称为 “中心和辐射”架构,其中上
业级数据仓库 是中心,源数据系统和数据集市在输入和输出范围的两端。
.ODS实际上是一个集成的、 面向主题的、可更新的、当前值的、企业级的、详细的数据库,也
叫运营数据存储。
二、多项选择题(10分)
.在数据挖掘的分析方法中,直接数据挖掘包括( ACD )
A分类 B 关联 C 估值 D 预言
.数据仓库的数据ETL过程中,ETL软件的主要功能包括(ABC)
A数据抽取 B 数据转换 C 数据加载 D 数据稽核
.数据分类的评价准则包括(ABCD )
A精确度 B 查全率和查准率 C F-Measure D 几何均值
.层次聚类方法包括(BC )
A划分聚类方法 B凝聚型层次聚类方法 C分解型层次聚类方法 D基于密度聚类方法
.贝叶斯网络由两部分组成,分别是( A D )
A网络结构 B 先验概率 C 后验概率 D 条件概率表
三、计算题(30分)
. 一个食品连锁店每周的事务记录如下表所示, 其中每一条事务表示在一项收款机业务中卖出的项目, 假
定supmin=40% confmin=40%使用AprioH 算法计算生成的关联规则,标明每趟数据库扫描时的候选集和大 项目集。(15分)
事务
项目
事务
项目
T1
面包、果冻、花生酱
T4
啤酒、面包
T2
面包、花生酱
T5
啤酒、牛奶
T3
面包、牛奶、花生酱
解:(1)由I={面包、果冻、花生酱、牛奶、啤酒}的所有项目直接产生1-候选C,计算其支持度,取出支
持度小于SUpmin的项集,形成1-频繁集L1,如下表所示:
项集C1
支持度
项集L1
支持度
{面包}
4/5
[{面包}
4/5
{花生酱}
3/5
{花生酱}
3/5
{牛奶}
2/5
{牛奶}
2/5
{啤酒}
2/5
{啤酒}
2/5
(2)组合连接Li中的各项目,产生 2-候选集C,计算其支持度,取出支持度小于 supmin的项集,形成2-频
繁集L2,如下表所示:
项集C2
支持度
项集L2
支持度
{面包、花生酱}
3/5
{面包、花生酱}
3/5
至此,所有频繁集都被找到,算法结束,
所以,confidence ({面包}—{花生酱}) = (4/5) / (3/5) =4/3> conf
confidence ({花生酱} -{面包}) = (3/5) / (4/5) =3/4> conf min
所以,关联规则{面包}-{花生酱}、{花生酱}-{面包}均是强关联规则。
.给定以下数据集(2,4, 10, 12, 15, 3, 21),进行K-Means聚类,设定聚类数为 2个,相似度按照 欧式距离计算。(15分)
解:(1)从数据集X中随机地选择k个数据样本作为聚类