文档介绍：该【数据挖掘作业】是由【非学无以广才】上传分享，文档一共【47】页，该文档可以免费在线阅读，需要了解更多关于【数据挖掘作业】的内容，可以使用淘豆网的站内搜索功能，选择自己适合的文档，以下文字是截取该文章内的部分文字，如需要获得完整电子版，请下载此文档到您的设备，方便您编辑和打印。《数据挖掘》作业
第一章引言
一、填空题
(1)数据库中的知识挖掘(KDD)涉及如下七个环节:、、
、、、和
(2)数据挖掘的性能问题重要涉及:、和
(3)目前的数据挖掘研究中,最重要的三个研究方向是:、和
(4)在万维网(WWW)上应用的数据挖掘技术常被称为:
(5)孤立点是指:
二、单选题
(1)数据挖掘应用和某些常用的数据记录分析系统的最重要区别在于:
A、所波及的算法的复杂性; B、所波及的数据量;
C、计算成果的体现形式; D、与否使用了人工智能技术
(2)孤立点挖掘合用于下列哪种场合?
A、目的市场分析 B、购物篮分析 C、模式辨认 D、信用卡欺诈检测
(3)下列几种数据挖掘功能中,( )被广泛的应用于股票价格走势分析

(4)下面的数据挖掘的任务中,()将决定所使用的数据挖掘功能
A、选择任务有关的数据 B、选择要挖掘的知识类型
C、模式的爱好度度量 D、模式的可视化表达
(5)下列几种数据挖掘功能中,( )被广泛的用于购物篮分析
A、关联分析 B、分类和预测 C、聚类分析 D、演变分析
(6)根据顾客的收入和职业状况,预测她们在计算机设备上的耗费,所使用的相应数据挖掘功能是( )

(7)协助市场分析人员从客户的基本信息库中发现不同的客户群,一般所使用的数据挖掘功能是( )

(8)假设目前的数据挖掘任务是解析数据库中有关客户的一般特性的描述,一般所使用的数据挖掘功能是( )

三、简答题
(1)什么是数据挖掘?
(2)一种典型的数据挖掘系统应当涉及哪些构成部分?
(3)请简述不同历史时代数据库技术的演化。
(4)请列举数据挖掘应用常用的数据源。(或者说,我们都在什么样的数据上进行数据挖掘)
(5)什么是模式爱好度的客观度量和主观度量?
(6)在哪些状况下,我们觉得所挖掘出来的模式是有趣的?
(7)根据挖掘的知识类型,我们可以将数据挖掘系统分为哪些类别?
第2章数据预解决
填空题
(1)进行数据预解决时所使用的重要措施涉及:、、
和
(2)解决噪声数据的措施重要涉及:、、
和
(3)模式集成的重要问题涉及:和
(4)数据概化是指:
(5)数据压缩可分为:和两种类型。
(6)进行数值归约时,三种常用的有参措施是:、
和
(7)数据离散度的最常用度量是、和
二、单选题
(1)数据归约的目的是()
A、弥补数据种的空缺值 B、集成多种数据源的数据
C、得到数据集的压缩表达 D、规范化数据
(2)下面哪种数据预解决技术可以用来平滑数据,消除数据噪声?

(3)进行数据规范化的目的是( )

,用高层次概念替代低层次“原始”数据
,使之落入一种小的特定区间
(4)数据的噪声是指()
A、孤立点 B、空缺值
C、测量变量中的随后错误或偏差 D、数据变换引起的错误
(5)那种数据变换的措施将数据沿概念分层向上汇总
A、平滑 B、汇集 C、数据概化 D、规范化
(6)( )通过将属性域划分为区间,从而减少给定持续值的个数。

三、多选题
(1)下面哪些问题是我们进行数据预解决的因素?

(2)下面的度量中,哪些是数据离散度的度量?

(3)数据清理的目的是解决数据中的()
A、空缺值 B、噪声数据 C、不一致数据 D、敏感数据
(4)下列哪些是数据变换也许波及的内容?
A、数据压缩 B、数据概化 C、维归约 D、规范化
(5)如下哪些因素也许引起空缺值
A、设备异常
B、命名规则的不一致
C、与其她已有数据不一致而被删除
D、在输入时,有些数据由于得不到注重而没有被输入
四、简答题
(1)常用的数值属性概念分层的措施有哪些?
(2)典型的生成分类数据的概念分层的措施有哪些?
(3)在现实世界的数据中,元组在某些属性上缺少值是常有的。描述解决该问题的多种措施。
(4)常用的数据归约方略涉及哪些?
第四章数据挖掘原语、语言和系统构造
一、填空题
(1)概念分层有四种类型,分别是:、、和
(2)常用的四种爱好度的客观度量是:、、和
(3)同步满足和的关联规则称为强关联规则。
二、单选题
(1)如下DMQL片断:
mineassociationsasbuyingHabits
matchingP(X:customer,W)∧Q(X,Y)=>buys(X,Z)
所指定的挖掘知识类型是:
A、特性化 B、辨别 C、关联 D、分类
(2)如下哪种数据挖掘系统与数据库/数据仓库系统集成方式将会使数据挖掘系统达到最佳的性能?
A、不耦合 B、松散耦合 C、半紧密耦合 D、紧密耦合
三、多选题
(1)如下哪些OLAP操作是和概念分层紧密有关的?
A、上卷 B、切片 C、下钻 D、切块
四、简答题
(1)定义数据挖掘任务的原语,重要应当涉及哪些部分?
(2)为什么需要数据挖掘原语和语言来指引数据挖掘?
(3)描述如下将数据挖掘系统与数据库或数据仓库系统集成的构造之间的差别:不耦合、松散耦合、半紧密耦合和紧密耦合。
(4)数据挖掘的GUI也许涉及哪些部分?
第五章概念描述:特性化与比较
一、填空题
(1)概念描述由和构成。
(2)一般来说,进行类比较的过程应当涉及如下几种环节:、、
和
(3)从数据分析的角度看,数据挖掘可以分为两类:和
(4)属性有关分析的基本思想是计算某种度量,用于量化属性与给定类或概念的有关性。可采用的度量涉及:、、和
(5)数据离散度的最常用度量涉及:、和
二、单选题
(1)类比较的过程中,我们在哪个环节得到主目的类关系/方体和主对比类关系/方体?
A、数据收集 B、维有关分析 C、同步概化 D、导出比较的表达
(2)哪种图形显示措施常用于描述两个变量间的依赖模式?
A、直方图 B、分位数图 C、散布图 D、LOESS曲线
(3)哪种图形显示措施常用于拟定两个量化的变量之间看上去与否有联系、模式或者趋势?
A、直方图 B、分位数图 C、散布图 D、LOESS曲线
(4)哪种图形显示措施用于显示所有的数据,容许顾客评估总的状况和不寻常状况的浮现?
A、直方图 B、分位数图 C、散布图 D、LOESS曲线
(5)中心趋势度量模(mode)是指
A、算术平均值 B、数据集中浮现频率最高的值 C、最大值 D、最小值
三、多选题
(1)下面哪些是常用的数据概化措施?
A、离散化 B、数据立方体(OLAP技术)
C、鉴定归纳树 D、面向属性的归纳
(2)使用数据立方体措施进行数据概化的长处涉及:
A、数据概化的一种有效实现
B、可以计算多种不同的度量值
C、受数据类型和度量类型的约束比较少
D、概化和特性分析通过一系列的数据立方体操作完毕,简朴高效
(3)如下哪些是属于中心趋势的度量
A、平均值 B、原则差 C、五数概括 D、中位数
四、简答题
(1)简述类比较的过程。
(2)简述面向属性归纳的基本思想,并阐明什么时候使用属性删除,什么时候使用属性概化。
(3)简述概念描述的属性有关分析的基本环节。
(4)简要论述概念描述和OLAP之间的重要区别。
(5)为什么进行属性有关分析?
(6)简述进行概念描述时,面向数据库的措施和机器学****的重要区别。
(7)什么是概念描述的增量挖掘?
第六章大型数据库中的关联规则挖掘
一、填空题
(1)关联规则挖掘中,两个重要的爱好度度量是:和
(2)Aprior算法涉及和两个基本环节
(3)项集的频率是指
(4)大型数据库中的关联规则挖掘涉及两个过程:和
(5)根据规则中所解决的值类型,关联规则可分为:和
(6)Apriori性质是指:
(7)挖掘多维关联规则的技术可以根据量化属性的解决分为三种基本措施:、
和
(8)对于频繁项集挖掘,在挖掘过程中使用的约束涉及如下五种类型:、
、、和
(9)在多维关联规则挖掘中,我们搜索的不是频繁项集,而是
二、单选题
(1)下列几种数据挖掘功能中,( )被广泛的用于购物篮分析。
A、关联分析 B、分类和预测 C、聚类分析 D、演变分析
(2)支持度(support)是衡量爱好度度量()的指标。
A、实用性 B、拟定性 C.、简洁性 D、新颖性
(3)置信度(confidence)是衡量爱好度度量()的指标。
A、简洁性 B、拟定性 C.、实用性 D、新颖性
(4)根据关联分析中所解决的值类型,可以将关联规则分类为:( )
A、布尔关联规则和量化关联规则B、单维关联规则和多维关联规则
C、单层关联规则和多层关联规则D、简答关联规则和复杂关联规则
(5)规则:age(X,”19-25”)∧buys(X,“popcorn”)=>buys(X,“coke”)是一种
A、单维关联规则 B、多维关联规则
C、混合维关联规则 D、不是一种关联规则
三、多选题
(1)根据关联分析中所波及的抽象层,可以将关联规则分类为:( )
A、布尔关联规则 B、单层关联规则 C、多维关联规则 D、多层关联规则
(2)根据关联分析中所波及的数据维,可以将关联规则分类为:( )
A、布尔关联规则 B、单维关联规则 C、多维关联规则 D、多层关联规则
(3)Apriori算法所面临的重要的挑战涉及:
A、会消耗大量的内存B、会产生大量的候选项集
C、对候选项集的支持度计算非常繁琐D、要对数据进行多次扫描
四、简答题
(1)对于具有递减支持度的多层关联规则挖掘,分别均有哪些搜索方略?各有什么特点?
(2)给出一种例子,表白强关联规则中的项也许事实上是负有关的。
(3)简述在多层关联规则挖掘中,在不同的层使用一致的支持度的优缺陷。
(4)什么是简洁性约束?
第6章分类和预测
一、填空题
(1)通过对数据进行预解决,可以提高分类和预测过程的、
和
(2)避免分类中的过度适应的两种措施分别是:和
二、单选题
(1)下面哪种分类措施是属于神经网络学****算法?( )
A、鉴定树归纳 B、贝叶斯分类 C、后向传播分类 D、基于案例的推理
(2)下面哪种分类措施是属于记录学的分类措施?( )
A、鉴定树归纳 B、贝叶斯分类 C、后向传播分类 D、基于案例的推理
(3)下列哪个描述是对的的?( )
A、分类和聚类都是有指引的学****C、分类是有指引的学****聚类是无指引的学****br/>B、分类和聚类都是无指引的学****D、分类是无指引的学****聚类是有指引的学****br/>三、简答题
(1)简述鉴定树分类的重要环节。
(2)在鉴定树归纳中,为什么树剪枝是有用的?
(3)为什么朴素贝叶斯分类称为“朴素”的?简述朴素贝叶斯分类的重要思想。
(4)请简述鉴定树归纳算法的基本方略。
(5)对分类和预测措施进行比较和评估的原则均有哪些?
(6)简述数据分类的两步过程。
(7)简述后向传播分类的优缺陷。
四、算法题
(1)使用鉴定树归纳算法,根据顾客年龄age(分为3个年龄段:<18,18...23,>23),收入income(取值为high,medium,low),与否为student(取值为yes和no),信用credit_rating级别(取值为fair和excellent)来鉴定顾客与否会购买PCGame,即构建鉴定树buys_PCGame,假设既有的数据通过第一次划分之后得到如下图所示成果,并根据该成果对每一种划分中的各个属性计算信息增益
对age<18的顾客:Gain(income)=,Gain(student)=,Gain(credit_rating)=
对age>23的顾客:Gain(income)=,Gain(student)=,Gain(credit_rating)=
请根据以上成果绘制出鉴定树buys_PCGame,来鉴定顾客与否会购买PCGame。