文档名称：

数据挖掘试题(单选).pdf

格式：pdf 大小：624KB 页数：6页

下载后只包含 1 个 PDF 格式的文档，没有任何的图纸或源代码，查看文件列表

如果您已付费下载过本站文档，您可以点这里二次下载

预览

下载此文档

数据挖掘试题(单选).pdf

上传人:青山代下 2024/5/13 文件大小：624 KB

下载得到文件列表

数据挖掘试题(单选).pdf

相关文档

文档介绍

文档介绍：该【数据挖掘试题(单选) 】是由【青山代下】上传分享，文档一共【6】页，该文档可以免费在线阅读，需要了解更多关于【数据挖掘试题(单选) 】的内容，可以使用淘豆网的站内搜索功能，选择自己适合的文档，以下文字是截取该文章内的部分文字，如需要获得完整电子版，请下载此文档到您的设备，方便您编辑和打印。,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?<A>?<A><a>警察抓小偷,描述警察抓的人中有多少个是小偷的标准。描述有多少比例的小偷给警察抓了的标准。,,,,、变换、维度规约、数值规约是在以下哪个步骤的任务?<C>,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离??<A>,对数据进行探索属于数据挖掘的哪一类任务?〔;把多维空间划分成组等问题属于数据挖掘的哪一类任务?,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?<C>,属于数据挖掘哪一类任务?<A>?<D>:5,10,11,13,15,35,50,55,72,92,204,215使用如下每种方法将它们划分成四个箱。等频〔等深划分时,15在第几个箱子内?,等宽划分时〔宽度为50,15又在哪个箱子里?<A>:<D>,属于定量的属性类型是:<C>:<C>1/:<D>:{1、2、3、4、5、90},其截断均值〔p=20%是<C>?<A>,投掷均匀正六面体骰子的熵是:。利用最大最小规范化的方法将属性的值映射到0至1的范围内。e的73600元将被转化为:<D>。数据元组中age的值如下〔按递增序:13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70,问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。第二个箱子值为:<A>{12243324556826},其四分位数极差是:<A>:一年级200人,二年级160人,三年级130人,四年级110人。则年级属性的众数是:<A>:,当合适的样本容量很难确定时,可以使用的抽样方法是:<D>,下面的描述不正确的是<C>;;;,:<D>,数据仓库,数据集市和应用程序等结构相关的信息;;;,:<C>;,粒度就越小,级别也就越高;,粒度也就越大,级别也就越高;,不正确的描述是:<A>;2/6B.;,是启发式的开发;,并不存在操作型环境中所固定的和较确切的处理流,数据仓库中数据分析和处理更灵活,,下列说法不正确的是:<D>,,:<D>;;;,下面正确的是:<D><1>快速性<2>可分析性<3>多维性<4>信息性<5>共享性A.<1><2><3>B.<2><3><4>C.<1><2><3><4>D.<1><2><3><4><5>,不正确的是:<C>,,,但其最终数据来源与OLTP一样均来自底层的数据库系统,:<D>,只有后者有与用户的交互性;,在元数据的知道下,,下列不正确的是:<A>,,={1,2,3}是频繁项集,则可由X产生__<C>__个关联规则。A、4B、5C、6D、__图。A、无向无环B、有向无环C、有向有环D、、频繁闭项集、最大频繁项集之间的关系是:<C>A、频繁项集频繁闭项集=最大频繁项集3/6B=频繁闭项集最大频繁项集C、频繁项集频繁闭项集最大频繁项集D、频繁项集=频繁闭项集=-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有5个项,采用合并策略,由候选产生过程得到4-项集不包含〔CA、1,2,3,4B、1,2,3,5C、1,2,4,5D、1,3,4,<C>A、s=<{2,4},{3,5,6},{8}>t=<{2},{3,6},{8}>B、s=<{2,4},{3,5,6},{8}>t=<{2},{8}>C、s=<{1,2},{3,4}>t=<{1},{2}>D、s=<{2,4},{2,4}>t=<{2},{4}>,这样的任务称为A、频繁子集挖掘B、频繁子图挖掘C、频繁数据项挖掘D、<D>A、系数B、几率C、Cohen度量D、<A>__不是将主观信息加入到模式发现任务中的方法。A、与同一时期其他数据对比B、可视化C、基于模板的方法D、-项集的最大数量是多少〔CID购买项1牛奶,啤酒,尿布2面包,黄油,牛奶3牛奶,尿布,饼干4面包,黄油,饼干5啤酒,饼干,尿布6牛奶,尿布,面包,黄油7面包,黄油,尿布8啤酒,尿布9牛奶,尿布,面包,黄油10啤酒,饼干A、1B、2C、3D、,A,DBSCANB,,K-MeanD,EM〔,A,KNNB,SVMC,BayesD,神经网络〔,A,根结点〔rootnode>B,内部结点〔internalnodeC,外部结点〔externalnodeD,叶结点〔leafnode<C>〔其中c是类的个数<A>A,B,C,D,〔<C>.,依据规则质量的某种度量对规则排序,保证每一个测试记录都是由覆盖它的最好的规格来分类,这种方案称为。<A>?,则称规则集R中的规则为〔C;A,无序规则B,穷举规则C,互斥规则D,,R中都存在一条规则加以覆盖,则称规则集R中的规则为A,无序规则B,穷举规则C,互斥规则D,,则称规则集是<D>A,无序规则B,穷举规则C,互斥规则D,,把每条被触发规则的后件看作是对相应类的一次投票,然后计票确定测试记录的类标号,称为〔AA,无序规则B,穷举规则C,互斥规则D,:队0和队1。假设65%的比赛队0,剩余的比赛队1获胜。队0获胜的比赛中只有30%是在队1的主场,而队1取胜的比赛中75%是主场获胜。如果下一场比赛在队1的主场进行队1获胜的概率为<C>A,,,,〔ANN的描述错误的有<A>A,神经网络对训练数据中的噪声非常鲁棒B,可以处理冗余特征C,训练ANN是一个很耗时的过程D,<A>A,组合<ensemble>B,聚集<aggregate>C,bination>D,投票<voting>,使得每个数据对象恰在一个子集中,这种聚类类型称作〔BA、层次聚类B、划分聚类C、非互斥聚类D、,当邻近度函数采用〔A的时候,合适的质心是簇中各点的中位数。A、曼哈顿距离B、平方欧几里德距离C、余弦距离D、Bregman散度65.〔C是一个观测值,它与其他观测值的差别如此之大,以至于怀疑它是由不同的机制产生的。A、边界点B、质心C、离群点D、〔B。A、分类器B、聚类算法C、关联分析算法D、,属于异常检测中的基于〔A的离群点检测。A、统计方法B、邻近度C、密度D、聚类技术68.〔C将两个簇的邻近度定义为不同簇的所有点对的平均逐对邻近度,它是一种凝聚层次聚类技术。A、MIN〔单链B、MAX〔全链C、组平均D、Ward方法69.〔D将两个簇的邻近度定义为两个簇合并时导致的平方误差的增量,它是一种凝聚层次5/6A、MIN〔单链B、MAX〔全链C、组平均D、〔B。A、O<m>B、O<m2>C、O<logm>D、O<m*logm>,如果簇度量为proximity<Ci,C>,簇权值为mi,那么它的类型是〔C。A、基于图的凝聚度B、基于原型的凝聚度C、基于原型的分离度D、,以下说法不正确的是〔A。A、K均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象。B、K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念。C、K均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的簇。D、K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇。:①构造k-最近邻图。②使用多层图划分算法划分图。③repeat:合并关于相对互连性和相对接近性而言,最好地保簇的持自相似性的簇。④until:不再有可以合并的簇。〔C。A、MSTB、OPOSSUMC、ChameleonD、Jarvis-Patrick〔:一个对象碰巧与另一个对象相对接近,但属于不同的类,因为这两个对象一般不会共享许多近邻,所以应该选择〔D的相似度计算方法。A、平方欧几里德距离B、余弦距离C、直接相似度D、〔A。A、CUREB、DENCLUEC、CLIQUED、〔D。A、模糊c均值B、EM算法C、SOMD、,下面说法正确的是〔B。A、当簇只包含少量数据点,或者数据点近似协线性时,混合模型也能很好地处理。B、混合模型比K均值或模糊c均值更一般,因为它可以使用各种类型的分布。C、混合模型很难发现不同大小和椭球形状的簇。D、混合模型在有噪声和离群点时不会存在问题。〔D。A、STINGB、WaveClusterC、MAFIAD、。这是基于〔C的离群点定义。、邻近度C、密度D、-Patrick〔JP聚类算法的说法不正确的是〔D。A、JP聚类擅长处理噪声和离群点,并且能够处理不同大小、形状和密度的簇。B、JP算法对高维数据效果良好,尤其擅长发现强相关对象的紧致簇。C、JP聚类是基于SNN相似度的概念。D、JP聚类的基本时间复杂度为O<m>。6/6