1 / 39
文档名称:

大数据测试试卷样题.pdf

格式:pdf   大小:3,664KB   页数:39页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

大数据测试试卷样题.pdf

上传人:1781111**** 2024/4/29 文件大小:3.58 MB

下载得到文件列表

大数据测试试卷样题.pdf

相关文档

文档介绍

文档介绍:该【大数据测试试卷样题 】是由【1781111****】上传分享,文档一共【39】页,该文档可以免费在线阅读,需要了解更多关于【大数据测试试卷样题 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。:..单选题每一题只有一个正确选项,共110题第1题,大数据不是要教机器像人一样思考。相反,它是(A)。A:把数学算法运用到海量的数据上来预测事情发生的可能性B:被视为人工智能的一部分C:被视为一种机器学****D:预测与惩罚第2题,MongoDB是一种NoSQL数据库,具体地说,是(B)存储数据库。A:键值B:文档C:图形D:XML第3题,以下哪种说法是错误的(B)。A:将罪犯的定罪权放在数据手中,借以表达对数据和分析结果的崇尚,这实际上是一种滥用B:随着数据量和种类的增多,大数据促进了数据内容的交叉检验,匿名化的数据不会威胁到任何人的隐私C:采集个人数据的工具就隐藏在我们日常生活所必备的工具当中,比如网页和智能手机应用程序D:预测与惩罚,不是因为所做,而是因为将做第4题,下列关于MapReduce的说法错误的是(D)A:MapReduce将复杂的、运行于大规模集群上的并行计算过程高度地抽象到了两个函数:Map和ReduceB:MapReduce采用分而治之”策略,一个存储在分布式文件系统中的大规模数据集,会被切分成许多独立的分片(split),这些分片可以被多个Map任务并行处理C:MapReduce设计的一个理念就是“计算向数据靠拢”,而不是“数据向计算靠拢”,因为,移动数据需要大量的网络传输开销D:MapReduce应用程序必须要用Java来写第5题,下面与Zookeeper类似的框架是(D)A:ProtobufB:JavaC:KafkaD:Chubby第6题,可以对大数据进行深度分析的平台工具是(C)。A:传统的机器学****和数据分析工具B:第二代机器学****工具C:第三代机器学****工具1页:..D:未来机器学****工具第7题,哪个是HDFS(HadoopDistributedFileSystem)适合做的(B)。A:大量小文件存储B:流式数据访问C:随机写入D:低延迟读取第8题,HBase依赖(D)提供强大的计算能力。A:ZookeeperB:ChubbyC:RPCD:MapReduce第9题,工业大数据的主要应用不包括(D)。A:设备状态分析B:用电分析与预测C:工业原料自动分类D:自然语言处理第10题,建立在相关关系分析法基础上的预测是大数据的(C)。A:基础B:前提C:核心D:条件第11题,在大数据时代,我们需要设立一个不一样的隐私保护模式,这个模式应该更着重于(A)为其行为承担责任。A:数据使用者B:数据提供者C:个人许可D:数据分析者第12题,智慧城市的构建,不包含(C)。A:数字城市B:物联网C:联网监控?D:云计算第13题,支撑大数据业务的基础是(B)。2页:..A:数据科学B:数据应用C:数据硬件D:数据人才第14题,机器学****的实质在于(B)。A:想B:找C:判断D:理解第15题,下列关于大数据的分析理念的说法中,错误的是(D)。A:在数据基础上倾向于全体数据而不是抽样数据B:在分析方法上更注重相关分析而不是因果分析C:在分析效果上更追究效率而不是觉得精准D:在数据规模上强调相对数据而不是绝对数据第16题,Hadoop是由何种语言编写的(C)。A:ScalaB:ErlangC:JavaD:Python第17题,hadoop中datanode的在作用(A)。A:存储数据B:管理集群中的节点C:写入数据D:删除数据第18题,可视化是将大数据分析结构展示出来的主要方式,不属于大数据分析与可视化的特性的是(D)。A:迭代性B:容错性C:参数收敛的非均匀性D:扩展性第19题,关于工业大数据与互联网大数据的比较何者为伪(D)。A:互联网大数据是大量样本B:工业大数据尽可能全面使用样本3页:..C:互联网大数据对资料品质的要求较低D:工业大数据以统计分析为主通过挖掘样本中各个属性之间的相关性进行预测第20题,关于Hive与Hadoop其他组件的关系,描述错误的是(D)。A:HIVE最终将数据存储在HDFS中B:HiveSQL其本质是执行的MapReduce任务C:Hive是Hadoop平台的数据仓库工具?D:Hive对HBase有强依赖第21题,下面哪个场景不适合HBase的应用(A)。A:需要完全拥有传统关系型数据库所具备的ACID特性B:需要很好的性能伸缩能力C:需要在海量数据中实现高效的随机读取D:能够同时处理结构化和非结构化的数据第22题,大数据的最显著特征是(A)。A:数据规模大B:数据类型多样C:数据处理速度快D:数据价值密度高第23题,假设一种基因同时导致两件事情,一是使人喜欢抽烟,二是使这个人和肺癌就是(A)关系,而吸烟和肺癌则是(A)关系。A:因果;相关B:相关;因果C:并列;相关D:因果;并列第24题,下列关于计算机存储容量单位的说法中,错误的是(C)。A:1KB<1MB<1GBB:基本单位是字节(Byte)C:一个汉字需要一个字节的存储空间D:一个字节能够容纳一个英文字符第25题,以下说法不正确的是(D)。A:HadoopStreaming使用Unix中的流与程序交互B:HadoopStreaming允许我们使用任何可执行脚本语言处理数据流C:采用脚本语言时必须遵从UNIX的标准输入STDIN,并输出到STDOUT4页:..D:Reduce没有设定,上述命令运行会出现问题第26题,有关MapReduce的输入输出,说法错误的是(B)。A:链接多个MapReduce作业时,序列文件是首选格式B:FileInputFormat中实现的getSplits()可以把输入数据划分为分片,分片数目和大小任意定义C:想完全禁止输出,可以使用NullOutputFormatD:每个reduce需将它的输出写入自己的文件中,输出无需分片第27题,数据挖掘分为(C)数据挖掘和预测型数据挖掘。A:列举型B:交换型C:描述型D:重点型第28题,大数据时代,我们是要让数据自己【发声】,没必要知道为什么,只需要知道(B)。A:原因B:是什么C:关联物D:预测的关键第29题,当前大数据技术的基础是由(C)首先提出的。A:微软B:百度C:谷歌D:阿里巴巴第30题,在大数据时代,下列说法正确的是(B)。A:收集数据很简单B:数据是最核心的部分C:对数据的分析技术和技能是最重要的D:数据非常重要,一定要很好的保护起来,防止泄露第31题,大数据的发展,使信息技术变革的重点从关注技术转向关注(A)。A:信息B:数字C:文字D:方位第32题,Hadoop的作者是下面哪一位(D)。5页:..A:TaskTrackerB:DataNodeC:SecondaryNameNodeD:Jobtracker第33题,HBase会先将数据写入到(D)。A:MemStoreB:HfileC:StoreFileD:HLog第34题,大数据的简单算法与小数据的复杂算法相比(A)。A:更有效B:相当C:不具备可比性D:无效第35题,下面不属于Hadoop安装步骤的是(C)。A:安装JDK和配置Java环境变量B:设置免密码登录C:下载Eclipse集成开发环境D:修改Hadoop配置文件并启动Hadoop第36题,下列关于聚类挖掘技术的说法中,错误的是(B)。A:不预先设定数据归类类目,完全根据数据本身性质将数据聚合成不同类别B:要求同类数据的内容相似度尽可能小C:要求不同类数据的内容相似度尽可能小D:与分类挖掘技术相似的是,都是要对数据进行分类处理第37题,HDFS无法高效存储大量小文件,想让它能处理好小文件,比较可行的改进策略不包括(D)。A:利用SequenceFile、MapFile、Har等方式归档小文件B:多Master设计C:Block大小适当调小D:调大namenode内存或将文件系统元数据存到硬盘里第38题,在数据生命周期管理实践中,(B)是执行方法。A:数据存储和备份规范B:数据管理和维护C:数据价值发觉和利用6页:..D:数据应用开发和管理第39题,下列关于网络用户行为的说法中,错误的是(C)。A:网络公司能够捕捉到用户在其网站上的所有行为B:用户离散的交互痕迹能够为企业提升服务质量提供参考C:数字轨迹用完即自动删除D:用户的隐私安全很难得以规范保护第40题,机器学****的经典定义是(C)。A:利用技术进步改善系统自身的性能B:利用技术进步改善人的能力C:利用经验改善系统自身的性能D:利用经验改善人的能力第41题,对线下零售而言,做好大数据分析应用的前提是(C)。A:增加统计种类B:扩大营业面积C:增加数据来源D:开展优惠促销第42题,HDFS中的block默认保存几份(A)。A:3份B:2份C:1份D:不确定第43题,下列关于舍恩伯格对大数据特点的说法中,错误的是(D)。A:数据规模大B:数据类型多样C:数据处理速度快D:数据价值密度高第44题,关于数据创新,下列说法正确的是(D)。A:多个数据集的总和价值等于单个数据集价值相加B:由于数据的再利用,数据应该永久保存下去C:相同数据多次用于相同或类似用途,其有效性会降低D:数据只有开放价值才能得到真正释放第45题,数据仓库的最终目的是(D)。7页:..A:收集业务需求B:建立数据仓库逻辑模型C:开发数据仓库的应用分析D:为用户和业务部门提供决策支持第46题,Hadoop的标志物是(A)。A:大象B:长颈鹿C:狮子D:鲨鱼第47题,(A)。A:先进先出调度器B:计算能力调度器C:公平调度器D:优先级调度器第48题,美国海军军官莫里通过对前人航海日志的分析,绘制了新的航海路线图,标明了大风与洋流可能发生的地点。这体现了大数据分析理念中的(B)。A:在数据基础上倾向于全体数据而不是抽样数据B:在分析方法上更注重相关分析而不是因果分析C:在分析效果上更追究效率而不是绝对精确D:在数据规模上强调相对数据而不是绝对数据第49题,MAPREDUCE适用于(D)。A:任意应用程序B:任意可在WINDOWSSERVER2008上运行的程序C:可以串行处理的应用程序D:可以并行处理的应用程序第50题,下列演示方式中,不属于传统统计图方式的是(D)。A:柱状图B:饼状图C:曲线图D:网络图第51题,一切事物及事物运动的状态,不仅销售数据、价格这些客观标准可以形成大数据,甚至连顾客情绪(如色彩、空间的感知等)都可以测得,这体现了大数据思维维度中的(A)。A:定量思维8页:..B:相关思维C:因果思维D:实验思维第52题,关于Hadoop单机模式和伪分布式模式的说法,正确的是(D)。A:两者都起守护进程,且守护进程运行在一台机器上B:单机模式不使用HDFS,但加载守护进程C:两者都不与守护进程交互,避免复杂性D:后者比前者增加了HDFS输入输出以及可检查内存使用情况第53题,大数据不是要教机器像人一样思考。相反,它是(A)。A:把数学算法运用到海量的数据上来预测事情发生的可能性。B:被视为人工智能的一部分。C:被视为一种机器学****D:预测与惩罚。第54题,促进隐私保护的一种创新途径是(D):故意将数据模糊处理,促使对大数据库的查询不能显示精确的结果。A:匿名化B:信息模糊化C:个人隐私保护D:差别隐私第55题,HFile数据格式中的KeyValue数据格式中Value部分是(C)。A:拥有复杂结构的字符串B:字符串C:二进制数据D:压缩数据第56题,大数据的核心就是(B)。A:告知与许可B:预测C:匿名化D:规模化第57题,HBase依赖(A)提供消息通信机制。A:ZookeeperB:ChubbyC:RPC9页:..D:Socket第58题,HBase是分布式列式存储系统,记录按什么集中存放。(A)A:列族B:列C:行D:不确定第59题,HFile数据格式中的Data字段用于(A)。A:存储实际的KeyValue数据B:存储数据的起点C:指定字段的长度D:存储数据块的起点第60题,采样分析的精确性随着采样随机性的增加而(C),但与样本数量的增加关系不大。A:降低B:不变C:提高D:无关第61题,根据不同的业务需求来建立数据模型,抽取最有意义的向量,决定选取哪种方法的数据分析角色人员是(C)。A:数据管理人员B:数据分析员C:研究科学家D:软件开发工程师?第62题,storm和sparkstreaming最大的区别(C)。A:科学统计支持B:是否具有schemaC:是否是真正的实时计算框架D:不同公司的产品第63题,下列哪项通常是集群的最主要瓶颈(C)。A:CPUB:网络C:磁盘IOD:内存第64题,(D)反映数据的精细化程度,越细化的数据,价值越高。10页:..A:规模B:活性C:关联度D:颗粒度第65题,以下说法错误的是哪项(D)。A:大数据是一种思维方式B:大数据不仅仅是讲数据的体量大C:大数据会带来机器智能D:大数据的英文名称是largedata?第66题,按照大数据的资源观,大数据研究的关键科学问题有(D)。A:大数据的获取方法、加工技术、应用模式B:大数据的产权问题、相关的产业发展问题C:相应的法律法规建设问题D:以上都是第67题,大数据元年是指(C)。A:2014年B:2012年C:2013年D:2011年第68题,以下(D)选项是目前利用大数据分析技术无法进行有效支持的。A:新型病毒的分析判断B:天气情况预测C:个人消费****惯分析及预测D:精确预测股票价格第69题,关于数据估值,下列说法错误的是(B)。A:随着数据价值被重视,公司所持有和使用的数据也渐渐纳入了无形资产的范畴;B:无论是向公众开放还是将其锁在公司的保险库中,数据都是有价值的C:数据的价值可以通过授权的第三方使用来实现D:目前可以通过数据估值模型来准确的评估数据的价值评估第70题,HDFS是基于流数据模式访问和处理超大文件的需求而开发的,具有高容错、高可靠性、高可扩展性、高吞吐率等特征,适合的读写任务是(D)。A:一次写入,少次读11页:..B:多次写入,少次读C:多次写入,多次读D:一次写入,多次读第71题,对大数据使用进行正规评测及正确引导,可以为数据使用者带来什么切实的好处(A)。A:他们无须再取得个人的明确同意,就可以对个人数据进行二次利用B:数据使用者不需要为敷衍了事的评测和不达标准的保护措施承担法律责任C:数据使用者的责任不需要强制力规范就能确保履行到位D:所有项目,管理者必须设立规章,规定数据使用者应如何评估风险、如何规避或减轻潜在伤害第72题,大数据是指不用随机分析法这样的捷径,而采用(A)的方法。A:所有数据B:绝大部分数据C:适量数据D:少量数据第73题,大数据的起源是(C)。A:金融B:电信C:互联网D:公共管理第74题,关于HDFS的文件写入,正确的是(C)。A:支持多用户对同一文件的写操作B:用户可以在文件任意位置进行修改C:默认将文件块复制成三份存放D:复制的文件块默认都存在同一机架上第75题,HBase依靠(A)存储底层数据。A:HDFSB:HadoopC:MemoryD:MapReduce第76题,下列选项中属于机器学****的有(A)。A:深度学****B:数据挖掘C:机器翻译12页:..D:自然语言处理第77题,LSM是(A)。A:日志结构合并树B:二叉树C:平衡二叉树D:基于日志结构的合并树第78题,Pig相当于一个Hadoop的(D)。A:数据库B:上级C:服务器D:客户端第79题,HDFS默认BlockSize的大小是(B)。A:32MBB:64MBC:128MBD:256M第80题,国务院在哪一年印发了《促进大数据发展行动纲要》(A)。A:2015年B:2014年C:2016年D:2013年第81题,安装Hbase的压缩包,使用的Linux命令是(A)。A:tar-zxvfB:tar-zxC:tar-sD:tar-nf第82题,随着数据科学家的崛起,(C)的地位将发生动摇。A:国家领导人B:大型企业C:行业专家和技术专家D:职业经理人第83题,数据分析报告是整个数据分析过程的成果。对数据分析报告的要求不包括(A)。A:数据分析必须全部基于权威部门公开发布的数据13页:..B:数据分析的推理要有很强的逻辑性和严谨性C:每项分析都应有结论,而且结论一定要明确D:分析报告要有很强的可读性,尽量图表化第84题,如何应对大数据(D)。A:分布式计算B:虚拟化C:内存计算D:三个选项都是第85题,大数据正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的(B)。A:新一代技术平台B:新一代信息技术和服务业态C:新一代服务业态D:新一代信息技术第86题,数据清洗的方法不包括(D)。A:缺失值处理B:噪声数据清除C:一致性检查D:重复数据记录处理第87题,下列关于数据交易市场的说法中,错误的是(C)。A:数据交易市场是大数据产业发展到一定程度的产物B:商业化的数据交易活动催生了多方参与的第三方数据交易市场C:数据交易市场通过生产数据、研发和分析数据,为数据交易提供帮助D:数据交易市场是大数据资源化的必然产物第88题,下列说法正确的是(C)。A:有价值的数据是附属于企业经营核心业务的一部分数据;B:数据挖掘它的主要价值后就没有必要再进行分析了C:所有数据都是有价值的D:在大数据时代,收集、存储和分析数据非常简单第89题,相比依赖于小数据和精确性的时代,大数据因为更强调数据的(D),帮助我们进一步接近事实的真相。A:安全性B:完整性14页:..C:混杂性D:完整性和混杂性第90题,第一个提出大数据概念的公司是(D)。A:微软公司B:谷歌公司C:脸谱公司D:麦肯锡公司第91题,LSM更能保证哪种操作的性能(B)。A:读B:写C:随机读D:合并第92题,2011年,(C)发布《大数据:创新、竞争和生产力的下一个新领域》报告,大数据开始备受关注。A:微软公司B:百度公司C:麦肯锡公司D:阿里巴巴公司第93题,大数据时代,数据使用的关键是(D)。A:数据收集B:数据存储C:数据分析D:数据再利用第94题,面向用户提供大数据一站式部署方案,包括数据中心和服务器等硬件、数据分析应用软件及技术运维支持等多方面内容的大数据商业模式是(A)。A:大数据解决方案模式B:大数据信息分类模式C:大数据处理服务模式D:大数据资源提供模式第95题,只要得到了合理的利用,而不单纯只是为了数据而数据,大数据就会变成(B)。A:强大的威胁B:强大的武器C:预测工具15页:..D:分析工具第96题,在李杰教授的《工业大数据》互联网大数据与工业大数据的对比分析中,说法错误的是(D)。A:工业环境中的大数据与互联网大数据相比,工业大数据数据质量要求较高B:工业大数据对数据属性意义的解读强调特征之间的物理关联C:互联网大数据需要大量样本数,工业大数据需要尽可能全面地使用样本D:工业大数据对预测和分析结果的准确性高于互联网大数据第97题,以下哪项不属于数据挖掘的内容(C)。A:建立道路拥堵概率与拥堵趋势变化模型B:多维分析统计用户出行规律C:高德地图导航有躲避拥堵功能D:补充与完善路网属性第98题,《大数据时代》一书中的大数据是指(A)。A:全体数据或所有数据B:超出一般计算机数据处理能力的海量数据C:随机抽样数据D:无法处理的数据第99题,MapReduce框架提供了一种序列化键/值对的方法,支持这种序列化的类能够在Map和Reduce过程中充当键或值,以下说法错误的是(C)。A:实现Writable接口的类是值B:parable<T>接口的类可以是值或键C:parable<T>接口D:键和值的数据类型可以超出Hadoop自身支持的基本类型第100题,属于机器学****成果的是(A)。A:语言引擎B:搜索引擎C:计算引擎D:存储引擎第101题,以下NoSQL数据库中。(B)是一种高性能的分布式内存对象缓存数据库,通过缓存数据库查询结果,减少数据库访问次数,以提高动态Web应用的速度,提高可扩展性。A:MongoDBB:MemcachedC:Neo4jD:Hbase16页:..第102题,下列论据中,能够支撑大数据无所不能的观点的是(A)。A:互联网金融打破了传统的观念和行为B:大数据存在泡沫C:大数据具有非常高的成本D:个人隐私泄露与信息安全担忧第103题,hadoop中的namenode的作用(B)。A:存储数据B:管理集群中的节点C:写入数据D:删除数据第104题,以下哪一项不属于Hadoop可以运行的模式(C)。A:单机(本地)模式B:伪分布式模式C:互联模式D:分布式模式第105题,大数据公司的多样性表明了(B)。A:数据作用的体现B:数据价值的转移C:数据技术的发展D:数据思维的创新第106题,当前社会中,最为突出的大数据环境是(A)。A:互联网B:物联网C:综合国力D:自然资源第107题,设计分布式数据仓库hive的数据表时,为取样更高效,一般可以对表中的连续字段进行什么操作(A)。A:分桶B:分区C:索引D:分表第108题,关于机器学****的正确说法是用机器来(D)。A:模拟人类的神经元网络17页:..B:模仿的越多功能越强大C:最大发展是深度学****D:以上都是第109题,据管理数据的模式分类,NoSQL系统可以分为不包括(D)。A:键值系统B:文档存储系统C:图数据库D:语音管理系统第110题,智能健康手环的应用开发,体现了(D)的数据采集技术的应用。A:统计报表B:网络爬虫C:API接口D:传感器18页:..每一题有多个正确选项,共112题第111题,使得大数据分析的处理时间过长的主要原因有(AB)。A:数据规模宏大B:通常需要迭代式计算C:高维数据的噪声D:数据间的伪相关第112题,大数据在保险行业的应用包括(ABCD)。A:预测客户的购买行为B:预测死亡率偏高的客户群C:避免逆选择D:预测欺诈的可能性第113题,下面例子属于大数据技术公司的是(ABCD).A:四大机票预订系统之一的ITASoftwareB:与各行各业的公司合作应用高级无线感应技术来收集数据,然后对这些数据进行分析的埃森哲咨询公司C:微软研究中心与华盛顿中心医院合作分析了多年来的匿名医疗记录D:在对冲基金工作的金融工程师杰夫贝索斯创建了网上书店亚马逊第114题,关于数据创新包含(ABCDE)。A:数据的再利用B:数据的折旧值C:数据废气D:可扩展数据E:重组数据第115题,下列关于基于大数据的营销模式和传统营销模式的说法中,错误的是(ABC)。A:传统营销模式比基于大数据的营销模式投入更小B:传统营销模式比基于大数据的营销模式针对性更强C:传统营销模式比基于大数据的营销模式转化率低D:基于大数据的营销模式比传统营销模式实时性更强E:基于大数据的营销模式比传统营销模式标准性更强第116题,建立大数据需要设计一个什么样的大型系统(ABCD)。A:能够把应用放到合适的平台上B:能够开发出相应应用C:能够存储数据19页:..D:能够处理数据第117题,目前大数据时代下的社会治理有什么不良现象(ABCD)。A:水污染问题B:食品安全问题C:人口流动密集问题D:空槽老人问题第118题,下面对HBase的描述哪些是正确的(BCD)。A:不是开源的B:是面向列的C:是分布式的D:是一种NoSQL数据库第119题,楼盘大数据分析包括(ABCD)分析。A:房地产市场B:合作企业C:合作楼盘及区域D:人口情况与贷款客户情况第120题,下列关于脏数据的说法中,正确的是(ABCDE)。A:格式不规范B:编码不统一C:意义不明确D:与实际业务关系不大E:数据不完整第121题,机器学****涉及的理论有(ABCD)。A:概率论B:统计学C:凸分析D:逼近论第122题,下列关于舍恩伯格对大数据特点的说法中,正确的是(ABC)。A:数据规模大B:数据类型多样C:数据处理速度快D:数据价值密度高20页:..第123题,为方便用户理解大数据分析结果,需要友好的(ABCD)。A:大数据深度学****技术B:分布式内存计算C:大数据可视化技术D:云计算技术第124题,大数据与三个重大的思维转变有关,这三个转变是什么(ACD)。A:要分析与某事物相关的所有数据,而不是依靠分析少量的数据样本。B:我们乐于接受数据的纷繁复杂,而不再追求精确性。C:在数字化时代,数据处理变得更加容易、更加快速,人们能够在瞬间处理成千上万的数据。D:我们的思想发生了转变,不再探求难以捉摸的因果关系,转而关注事物的相关关系。第125题,下列关于大数据的说法中,错误的是(AD)。A:大数据具有体量大、结构单一、时效性强的特征B:处理大数据需采用新型计算架构和智能算法等新技术C:大数据的应用注重相关分析而不是因果分析D:大数据的应用注重因果分析而不是相关分析第126题,下列关于HDFS为存储MapReduce并行切分和处理的数据做的设计,正确的是(ACD)。A:FSDataInputStream扩展了DataInputStream以支持随机读B:为实现细粒度并行,输入分片(InputSplit)应该越小越好C:一台机器可能被指派从输入文件的任意位置开始处理一个分片D:输入分片是一种记录的逻辑划分,而HDFS数据块是对输入数据的物理分割第127题,运用大数据进行大治理要做到(ABCD)。A:用数据决策B:用数据管理C:用数据说话D:用数据创新第128题,以下哪些是HBase适用的场景(ABCD)。A:负荷很大的场合,如高速插入,大量读取B:事务处理,关联分析C:数据分析查询模式已经确立,并且不会轻易改变D:海量的,简单的操作(例如根据key查询value)第129题,Hadoop框架中最核心的设计就是(BDE)。A:GFS21页:..B:HDFSC:虚拟化和自服务管理D:MapReduceE:分布式存储第130题,Storm可用于许多领域中,下列属于Storm的应用领域的是(ABCDE)。A:如实时分析B:在线机器学****C:持续计算D:远程RPCE:数据提取加载转换第131题,有关HDFS文件系统说法正确的是以下那些(AD)。A:HDFS本身是个高可用系统架构B:HDFS采取的是多NameNode、DataNode架构C:HDFS数据副本的数量越大越好D:HDFSNameNode分主备,主备不同时对外服务第132题,进行大数据分析的人可以轻松地看到大数据的价值潜力,这极大地刺激着他们进一步(ABD)我们个人数据的野心。A:采集B:存储C:分析D:循环利用第133题,对于一个流计算系统来说,它应达到如下哪些需求(ABCDE)。A:高性能:处理大数据的基本要求,如每秒处理几十万条数据B:实时性:保证较低的延迟时间,达到秒级别,甚至是毫秒级别C:分布式:支持大数据的基本架构,必须能够平滑扩展D:易用性:能够快速进行开发和部署E:可靠性:能可靠地处理流数据。海量式:支持TB级甚至是PB级的数据规模第134题,在网络爬虫的爬行策略中,应用最为基础的是(AB)。A:深度优先遍历策略B:广度优先遍历策略C:高度优先遍历策略D:反向链接策略E:大站优先策略22页:..第135题,关于大数据在社会综合治理中的作用,以下理解正确的是(ABD)。A:大数据的运用能够维护社会治安B:大数据的运用能够加强交通管理C:大数据的运用能够杜绝抗生素的滥用D:大数据的运用有利于走群众路线第136题,流数据具有的特征,下列选项中正确的是(ABCDE)。A:数据快速持续到达,潜在大小也许是