1 / 28
文档名称:

大数据时代下的数据挖掘试题和答案及解析.pdf

格式:pdf   大小:2,284KB   页数:28页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

大数据时代下的数据挖掘试题和答案及解析.pdf

上传人:青山代下 2024/5/13 文件大小:2.23 MB

下载得到文件列表

大数据时代下的数据挖掘试题和答案及解析.pdf

相关文档

文档介绍

文档介绍:该【大数据时代下的数据挖掘试题和答案及解析 】是由【青山代下】上传分享,文档一共【28】页,该文档可以免费在线阅读,需要了解更多关于【大数据时代下的数据挖掘试题和答案及解析 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。:..-海量数据挖掘技术及工程实践题目一、单项选择题〔共80题〕1)(D)的目的缩小数据的取值围,使其更适合于数据挖掘算法的需要,并且能够得到和原始数据一样的分析结果。)*超市研究销售纪录数据后发现,买啤酒的人很大概率也会购置尿布,这种属于数据挖掘的哪类问题.(A))以下两种描述分别对应哪两种对分类算法的评价标准.(A)(a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。(b)描述有多少比例的小偷给警察抓了的标准。,,,,ROC4)将原始数据进展集成、变换、维度规约、数值规约是在以下哪个步骤的任务.(C))当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相别离.(B))建立一个模型,通过这个模型根据的变量值来预测其他*个变量值属于数据挖掘的哪一:..-类任务.(C))下面哪种不属于数据预处理的方法.(D))假设12个销售价格记录组已经排序如下:5,10,11,13,15,35,50,55,72,92,204,215使用如下每种方法将它们划分成四个箱。等频〔等深〕划分时,15在第几个箱子.(B))下面哪个不属于数据的属性类型:(D))只有非零值才重要的二元属性被称作:(C))以下哪种方法不属于特征选择的标准方法:(D))下面不属于创立新属性的相关方法的是:(B):..-13)下面哪个属于映射数据到新的空间的方法.(A))假设属性ine的最大最小值分别是12000元和98000元。利用最大最小规化的方法将属性的值映射到0至1的围。对属性ine的73600元将被转化为:(D))一所大学的各年纪人数分别为:一年级200人,二年级160人,三年级130人,四年级110人。则年级属性的众数是:(A))以下哪个不是专门用于可视化时间空间数据的技术:(B))在抽样方法中,当适宜的样本容量很难确定时,可以使用的抽样方法是:(D))数据仓库是随着时间变化的,下面的描述不正确的选项是(C):..-,这些综合数据会随着时间的变化不断地进展重新综合19)下面关于数据粒度的描述不正确的选项是:(C),粒度就越小,,粒度也就越大,)有关数据仓库的开发特点,不正确的描述是:(A),,并不存在操作型环境中所固定的和较确切的处理流,数据仓库中数据分析和处理更灵活,且没有固定的模式21)关于OLAP的特性,下面正确的选项是:(D)(1)快速性(2)可分析性(3)多维性(4)信息性(5)共享性A.(1)(2)(3)B.(2)(3)(4)C.(1)(2)(3)(4)D.(1)(2)(3)(4)(5)22)关于OLAP和OLTP的区别描述,不正确的选项是:(C),OLTP应用程序包含大量相对简单的事务:..-,,但其最终数据来源与OLTP一样均来自底层的数据库系统,两者面对的用户是一样的23)关于OLAP和OLTP的说法,以下不正确的选项是:(A),,是应用驱动的24)设*={1,2,3}是频繁项集,则可由*产生(C)个关联规则。)考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有5个项,采用合并策略,由候选产生过程得到4-项集不包含〔C〕,2,3,,2,3,,2,4,,3,4,526)下面选项中t不是s的子序列的是(C)=<{2,4},{3,5,6},{8}>t=<{2},{3,6},{8}>=<{2,4},{3,5,6},{8}>t=<{2},{8}>=<{1,2},{3,4}>t=<{1},{2}>=<{2,4},{2,4}>t=<{2},{4}>27)在图集合中发现一组公共子构造,这样的任务称为(B):..-)以下度量不具有反演性的是(D))以下(A)不是将主观信息参加到模式发现任务中的方法。)下面购物蓝能够提取的3-项集的最大数量是多少〔C〕TID项集1牛奶,啤酒,尿布2面包,黄油,牛奶3牛奶,尿布,饼干4面包,黄油,饼干5啤酒,饼干,尿布6牛奶,尿布,面包,黄油7面包,黄油,尿布8啤酒,尿布9牛奶,尿布,面包,黄油10啤酒,:..-31)以下哪些算法是分类算法〔B〕-)以下哪些分类方法可以较好地防止样本的不平衡问题〔A〕)决策树中不包含一下哪种结点(C)〔rootnode)〔internalnode〕〔e*ternalnode〕〔leafnode〕34)以下哪项关于决策树的说法是错误的(C))在基于规则分类器的中,依据规则质量的*种度量对规则排序,保证每一个测试记录都是由覆盖它的“最好的〞规格来分类,这种方案称为(B)。36)以下哪些算法是基于规则的分类器(A):..-)可用作数据挖掘分析中的关联规则算法有〔C〕。、对数回归、、、FP-、K均值法、决策树38)如果对属性值的任一组合,R中都存在一条规则加以覆盖,则称规则集R中的规则为(B))用于分类与回归应用的主要算法有:(D)、、K均值法、、、BP神经网络、贝叶斯40)如果允许一条记录触发多条分类规则,把每条被触发规则的后件看作是对相应类的一次投票,然后计票确定测试记录的类标号,称为〔A〕)42)以下关于人工神经网络〔ANN〕的描述错误的有(A):..-43)通过聚集多个分类器的预测来提高分类准确率的技术称为(A)(ensemble)(aggregate)(bination)(voting)44)简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,这种聚类类型称作〔B〕)在根本K均值算法里,当邻近度函数采用〔A〕的时候,适宜的质心是簇中各点的中位数。)〔C〕是一个观测值,它与其他观测值的差异如此之大,以至于疑心它是由不同的机制产生的。)BIRCH是一种〔B〕。)检测一元正态分布中的离群点,属于异常检测中的基于〔A〕的离群点检测。)〔C〕将两个簇的邻近度定义为不同簇的所有点对的平均逐对邻近度,它是一种凝聚层次聚类技术。:..〔单链〕*〔全链〕)〔D〕将两个簇的邻近度定义为两个簇合并时导致的平方误差的增量,它是一种凝聚层次聚类技术。〔单链〕*〔全链〕)以下算法中,不属于外推法的是〔B〕。)关联规则的评价指标是:〔C〕。、、、、相对误差53)关于K均值和DBSCAN的比拟,以下说法不正确的选项是〔A〕。,而DBSCAN一般聚类所有对象。,而DBSCAN使用基于密度的概念。,DBSCAN可以处理不同大小和不同形状的簇。,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇。54〕从研究现状上看,下面不属于云计算特点的是〔C〕:..)考虑这么一种情况:一个对象碰巧与另一个对象相对接近,但属于不同的类,因为这两个对象一般不会共享许多近邻,所以应该选择〔D〕的相似度计算方法。)分析顾客消费行业,以便有针对性的向其推荐感兴趣的效劳,属于〔A〕问题。)以下哪个聚类算法不是属于基于原型的聚类〔D〕。)关于混合模型聚类算法的优缺点,下面说确的是〔B〕。,或者数据点近似协线性时,混合模型也能很好地处理。,因为它可以使用各种类型的分布。。。59)以下哪个聚类算法不属于基于网格的聚类算法〔D〕。)一个对象的离群点得分是该对象周围密度的逆。这是基于〔C〕的离群点定义。)舆情研判,信息科学侧重〔C〕,社会和管理科学侧重突发群体事件管理中的群体心:..)MapReduce的Map函数产生很多的〔C〕.<key,value>)Mapreduce适用于〔D〕)PageRank是一个函数,它对Web中的每个网页赋予一个实数值。它的意图在于网页的PageRank越高,则它就〔D〕。╳)协同过滤分析用户兴趣,在用户群中找到指定用户的相似(兴趣)用户,综合这些用户对*一信息的评价,形成系统对该指定用户对此信息的喜好程度〔D〕,并将这些用户喜欢的项推荐给有相似兴趣的用户。:..)大数据指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间到达撷取、管理、处理、并〔B〕成为帮助企业经营决策更积极目的的信息。)大数据科学关注大数据网络开展和运营过程中〔D〕大数据的规律及其与自然和社会活动之间的关系。)大数据的价值是通过数据共享、〔D〕)社交网络产生了海量用户以及实时和完整的数据,同时社交网络也记录了用户群体的〔C〕,通过深入挖掘这些数据来了解用户,然后将这些分析后的数据信息推给需要的品牌商家或是微博营销公司。)通过数据收集和展示数据背后的〔D〕,运用丰富的、具有互动性的可视化手段,数据新闻学成为新闻学作为一门新的分支进入主流媒体,即用数据报道新闻。:..CRISP-DM模型中Evaluation表示对建立的模型进展评估,重点具体考虑得出的结果是否符合〔C〕的商业目的。)发现关联规则的算法通常要经过以下三个步骤:连接数据,作数据准备;给定最小支持度和〔D〕,利用数据挖掘工具提供的算法发现关联规则;可视化显示、理解、)规则I->j,“有可能〞,等于所有包含I的购物篮中同时包含J的购物篮的比例,为〔B〕。)如果一个匹配中,任何一个节点都不同时是两条或多条边的端点,也称作〔C〕)只要具有适当的政策推动,大数据的使用将成为未来提高竞争力、生产力、创新能力以及〔D〕的关键要素。)个性化推荐系统是建立在海量数据挖掘根底上的一种高级商务智能平台,以帮助〔D〕为其顾客购物提供完全个性化的决策支持和信息效劳。:..)云计算是对〔D〕)〔B〕是Google提出的用于处理海量数据的并行编程模式和大规模数据集的并行运算的软件架构。)在Bigtable中,〔A〕、判断题〔共40题〕1)分类是预测数据对象的离散类别,预测是用于数据对象的连续取值。(对)2)时序预测回归预测一样,也是用的数据预测未来的值,但这些数据的区别是变量所处时间的不同。(错)3)数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好的完成描述数据、预测数据等任务。(对)4)对遗漏数据的处理方法主要有:忽略该条记录;手工填补遗漏值;利用默认值填补遗漏值;利用均值填补遗漏值;利用同类别均值填补遗漏值;利用最可能的值填充遗漏值。(对)5)神经网络对噪音数据具有高承受能力,并能对未经过训练的数据具有分类能力,但其需:..-要很长的训练时间,因而对于有足够长训练时间的应用更适宜。(对)6)数据分类由两步过程组成:第一步,建立一个聚类模型,描述指定的数据类集或概念集;第二步,使用模型进展分类。(错)7)聚类是指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。(对)8)决策树方法通常用于关联规则挖掘。(错)9)数据规化指将数据按比例缩放(如更换大单位),使之落入一个特定的区域〔如0-1〕以提高数据挖掘效率的方法。规化的常用方法有:最大-最小规化、零-均值规化、小数定标规化。(对)10)原始业务数据来自多个数据库或数据仓库,它们的构造和规则可能是不同的,这将导致原始数据非常的杂乱、不可用,即使在同一个数据库中,也可能存在重复的和不完整的数据信息,为了使这些数据能够符合数据挖掘的要求,提高效率和得到清晰的结果,必须进展数据的预处理。(对)11)数据取样时,除了要求抽样时严把质量关外,还要求抽样数据必须在足够围有代表性。(对)12)分类规则的挖掘方法通常有:决策树法、贝叶斯法、人工神经网络法、粗糙集法和遗传算法。(对)13)可信度是对关联规则的准确度的衡量。(错)14)孤立点在数据挖掘时总是被视为异常、无用数据而丢弃。(错)15)Apriori算法是一种典型的关联规则挖掘算法。(对)16)用于分类的离散化方法之间的根本区别在于是否使用类信息。〔对〕17)特征提取技术并不依赖于特定的领域。〔错〕18)模型的具体化就是预测公式,公式可以产生与观察值有相似构造的输出,这就是预测值。:..-〔对〕19)文本挖掘又称信息检索,是从大量文本数据中提取以前未知的、有用的、可理解的、可操作的知识的过程。〔错〕20)定量属性可以是整数值或者是连续值。〔对〕21)可视化技术对于分析的数据类型通常不是专用性的。〔错〕22)OLAP技术侧重于把数据库中的数据进展分析、转换成辅助决策信息,是继数据库技术开展之后迅猛开展起来的一种新技术。〔对〕23)Web数据挖掘是通过数据库仲的一些属性来预测另一个属性,它在验证用户提出的假设过程中提取信息。〔错〕24)关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。〔错〕25)利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数。〔对〕26)先验原理可以表述为:如果一个项集是频繁的,那包含它的所有项集也是频繁的。〔错〕27)回归分析通常用于挖掘关联规则。〔错〕28)具有较高的支持度的项集具有较高的置信度。〔错〕29)维归约可以去掉不重要的属性,减少数据立方体的维数,从而减少数据挖掘处理的数据量,提高挖掘效率。〔对〕30)聚类〔clustering〕是这样的过程:它找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象类。〔错〕31)对于SVM分类算法,待分样本集中的大局部样本不是支持向量,移去或者减少这些样本对分类结果没有影响。〔对〕32)Bayes法是一种在后验概率与类条件概率的情况下的模式分类方法,待分样本的分类结果取决于各类域中样本的全体。(错):..-33)在决策树中,随着树中结点数变得太大,即使模型的训练误差还在继续减低,但是检验误差开场增大,这是出现了模型拟合缺乏的问题。〔错〕34)在聚类分析当中,簇的相似性越大,簇间的差异越大,聚类的效果就越差。〔错〕35)聚类分析可以看作是一种非监视的分类。〔对〕36)K均值是一种产生划分聚类的基于密度的聚类算法,簇的个数由算法自动地确定。〔错37)基于邻近度的离群点检测方法不能处理具有不同密度区域的数据集。〔对〕38)如果一个对象不强属于任何簇,则该对象是基于聚类的离群点。〔对〕39)大数据的4V特点是Volume、Velocity、Variety、Veracity。〔对〕40)聚类分析的相异度矩阵是用于存储所有对象两两之间相异度的矩阵,为一个nn维的单模矩阵。〔对〕三、多项选择题〔共30题〕1)噪声数据的产生原因主要有:〔ABCD〕)寻找数据集中的关系是为了寻找准确、方便并且有价值地总结出数据的*一特征的表示,这个过程包括了以下哪些步骤.(ABCD):..-3)数据挖掘的预测建模任务主要包括哪几大类问题.(AB))以下属于不同的有序数据的有:(ABCD))下面属于数据集的一般特性的有:(BCD)〕下面属于维归约常用的处理技术的有:(AC):..-)噪声数据处理的方法主要有:〔ABD〕)数据挖掘的主要功能包括概念描述、趋势分析、孤立点分析及〔ABCD〕等方面。)以下各项均是针对数据仓库的不同说法,你认为正确的有〔BCD〕。,支持联机事务处理〔OLTP〕〕联机分析处理包括(BCD)根本分析功能。〕利用Apriori算法计算频繁项集可以有效降低计算频繁集的时间复杂度。在以下的购物篮中产生支持度不小于3的候选3-项集,在候选2-项集中需要剪枝的是(BD)TID项集1面包、牛奶2面包、尿布、啤酒、鸡蛋3牛奶、尿布、啤酒、可乐4面包、牛奶、尿布、啤酒:..-5面包、牛奶、尿布、、、、、牛奶12〕下表是一个购物篮,假定支持度阈值为40%,其中(AD)是频繁闭项集。ID项集1面包、牛奶、尿布2面包、牛奶、尿布、啤酒3牛奶、尿布、鸡蛋4面包、尿布、啤酒、鸡蛋5啤酒、、牛奶、、、、鸡蛋13〕Apriori算法的计算复杂度受(ABCD)影响。〔维度〕〕以下关于非频繁模式说法,正确的选项是〔AD〕〕以下属于分类器评价或比拟尺度的有:(ACD):..-〕贝叶斯信念网络(BBN)有如下哪些特点。〔AB〕,添加变量相当麻烦17〕如下哪些不是最近邻分类器的特点。(C),〕以下属于聚类算法的是〔AB〕。-)〔CD〕都属于簇有效性的监视度量。)〔ABCD〕这些数据特性都是对聚类分析具有很强影响的。)在聚类分析当中,〔AD〕等技术可以处理任意形状的簇。:..-〔单链〕*〔全链〕)〔AB〕都属于分裂的层次聚类算法。)数据挖掘的挖掘方法包括:〔ABCD〕)Web容挖掘实现技术〔ABCD〕)基于容的推荐生成推荐的过程主要依靠〔ACD〕)云计算的效劳方式有〔ACD〕)文本挖掘的工具有〔BCD〕*:..-**tMining28)推荐系统为客户推荐商品,自动完成个性化选择商品的过程,满足客户的个性化需求,推荐基于最热卖商品、客户所处城市、〔D〕,推测客户将来可能的购置行为。)数据预处理方法主要有〔ABCD〕。:..-30)与传统的分布式程序设计相比,Mapreduce封装了〔ABCD〕等细节,还提供了一个简单而强大的接口。、单项选择题答案:1-5DAACB6-10CDBDC11-15DBADA16-A21-26-30CBDAC31-B36-40ACBDA41-45CAABA46-50CBACD51-55BCACD56-60ADBDC61-DDC66-70DBDDC71-75DCDBC76-80DDDBA:..1√2╳3√4√5√╳67√╳89√10√11√12√╳13╳1415√16√╳1718√╳1920√╳21:..22√╳231ABCD╳242ABCD25√3AB╳264ABCD╳275BCD╳286AC29√7ABD╳308ABCD31√9BCD╳3210BCD╳3311BD╳3412AD35√13ABCD╳3614AD37√15ACD38√16AB39√17C40√18AB19CD20ABCD21AD:..22AB23ABCD24ABCD25ACD26ACD27BCD28D29ABCD30ABCD