1 / 14
文档名称:

大数据面试题及答案.docx

格式:docx   大小:23KB   页数:14页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

大数据面试题及答案.docx

上传人:书犹药也 2022/12/6 文件大小:23 KB

下载得到文件列表

大数据面试题及答案.docx

文档介绍

文档介绍:该【大数据面试题及答案 】是由【书犹药也】上传分享,文档一共【14】页,该文档可以免费在线阅读,需要了解更多关于【大数据面试题及答案 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。大数据面试题及答案
来源:扣丁学堂
有不少大数据学员学成准备参与工作,在参与工作前最重要的一轮就是大数据的面试,小编收集了某些大数据面试题及答案,但愿可以帮到准备或者正在参与大数据面试的朋友们。
。答案Cdatanode
a)NameNode
b)Jobtracker
c)Datanode
d)secondaryNameNode
e)tasktracker
2. HDfS中的block默认保存几份?答案A默认3分
a)3份
b)2 份
c)1 份
d)不拟定
NameNode在一种节点启动?答案D
a)SecondaryNameNode
b)DataNode
c)TaskTracker
d)Jobtracker
此题分析:
hadoop的集群是基于master/slave模式,namenode和jobtracker属于master,datanode和tasktracker属于slave,master只有一种,而slave有多种SecondaryNameNode内存需求和NameNode在一种数量级上,因此一般secondaryNameNode(运营在单独的物理机器上)和NameNode运营在不同的机器上。
JobTracker和TaskTracker
JobTracker相应于NameNode
TaskTracker相应于DataNode
DataNode和NameNode是针对数据寄存来而言的
JobTracker和TaskTracker是对于MapReduce执行而言的
mapreduce中几种重要概念,mapreduce整体上可以分为这样几条执行线索:obclient,JobTracker与TaskTracker。
1、JobClient会在顾客端通过JobClient类将应用已经配备参数打包成jar文献存储到hdfs,并把途径提交到Jobtracker,然后由JobTracker创立每一种Task(即MapTask和ReduceTask)并将它们分发到各个TaskTracker服务中去执行。
2、JobTracker是一种master服务,软件启动之后JobTracker接受Job,负责调度Job的每一种子任务task运营于TaskTracker上,并监控它们,如果发既有失败的task就重新运营它。一般状况应当把JobTracker部署在单独的机器上。
3、TaskTracker是运营在多种节点上的slaver服务。TaskTracker积极与JobTracker通信,接受作业,并负责直接执行每一种任务。TaskTracker都需要运营在HDFS的DataNode上。
答案CDougcutting
a)MartinFowler
b)KentBeck
c)Dougcutting
5. HDFS 默认BlockSize答案:B
a)32MB
b)64MB
c)128MB
(由于版本更换较快,这里答案只供参照)
6. 下列哪项一般是集群的最重要瓶颈:答案:C磁盘
a)CPU
b)网络
c)磁盘IO
d)内存
该题解析:
一方面集群的目的是为了节省成本,用便宜的pc机,取代小型机及大型机。小型机和大型机有什么特点?


因此集群的瓶颈不也许是a和d
,但是并不是瓶颈。
,读写数据都需要io,然后还要冗余数据,hadoop一般备3份数据,因此IO就会打折扣。
?答案C
a)它是 NameNode的热备
b)它对内存没有规定
c)它的目的是协助 NameNode合并编辑日记,减少NameNode启动时间
d)SecondaryNameNode 应与NameNode部署到一种节点。
多选题:
8. 下列哪项可以作为集群的管理?答案:ABD
a)Puppet
b)Pdsh
c)ClouderaManager
d)Zookeeper
:答案ABC
a)如果一种机架出问题,不会影响数据读写
b)写入数据的时候会写到不同机架的 DataNode中
c)MapReduce 会根据机架获取离自己比较近的网络数据
10. Client端上传文献的时候下列哪项对的?答案B
a)数据通过NameNode传递给DataNode
b)Client端将文献切分为Block,依次上传
c)Client只上传数据到一台 DataNode,然后由NameNode负责Block复制工作
该题分析:
Client向NameNode发起文献写入的祈求。
NameNode根据文献大小和文献块配备状况,返回给Client它所管理部分DataNode的信息。
Client将文献划分为多种Block,根据DataNode的地址信息,按顺序写入到每一种DataNode块中。
:答案ABC
a)单机版
b)伪分布式
c)分布式
12. Cloudera提供哪几种安装CDH的措施?答案:ABCD
a)Clouderamanager
b)Tarball
c)Yum
d)Rpm
判断题:
,也可以进行告警。(对的)
分析:此题的目的是考Ganglia的理解。严格意义上来讲是对的。ganglia作为一款最常用的Linux环境中的监控软件,它擅长的的是从节点中按照顾客的需求以较低的代价采集数据。但是ganglia在预警以及发生事件后告知顾客上并不擅长。最新的ganglia已有了部分这方面的功能。但是更擅长做警告的尚有Nagios。Nagios,就是一款精于预警、告知的软件。通过将Ganglia和Nagios组合起来,把Ganglia采集的数据作为Nagios的数据源,然后运用Nagios来发送预警告知,可以完美的实现一整套监控管理的系统。
。(错误)
分析:它是可以被修改的Hadoop的基本配备文献是hadoop-,默认建立一种Job的时候会建立Job的Config,Config一方面读入hadoop-,然后再读入hadoop-(这个文献初始的时候配备为空),hadoop--。
不可以监控Hadoop集群,由于它不提供 Hadoop 支持。(错误)
分析:Nagios是集群监控工具,并且是云计算三大利器之一
NameNode意外终结,SecondaryNameNode 会接替它使集群继续工作。(错误)
分析:SecondaryNameNode是协助恢复,而不是替代,如何恢复,可以查看.
。(错误)
分析:第一套付费产品是ClouderaEnterpris,ClouderaEnterprise在美国加州举办的Hadoop 大会(HadoopSummit) 上公开,以若干私有管理、监控、运作工具加强 Hadoop的功能。收费采用合约订购方式,价格随用的Hadoop叢集大小变动。
是 Java开发的,因此MapReduce只支持Java 语言编写。(错误)
分析:rhadoop是用R语言开发的,MapReduce是一种框架,可以理解是一种思想,可以使用其她语言开发。
19. Hadoop 支持数据的随机读写。(错)
分析:lucene是支持随机读写的,而hdfs只支持随机读。但是HBase可以来补救。HBase提供随机读写,来解决Hadoop不能解决的问题。HBase自底层设计开始即聚焦于多种可伸缩性问题:表可以很“高”,有数十亿个数据行;也可以很“宽”,有数百万个列;水平分区并在上千个一般商用机节点上自动复制。表的模式是物理存储的直接反映,使系统有也许提高高效的数据构造的序列化、存储和检索。
metadata,client端每次读写祈求,它都会从磁盘中读取或则会写入 metadata信息并反馈client端。(错误)
此题分析:
NameNode不需要从磁盘读取 metadata,所有数据都在内存中,硬盘上的只是序列化的成果,只有每次namenode 启动的时候才会读取。
1)文献写入
Client向NameNode发起文献写入的祈求。
NameNode根据文献大小和文献块配备状况,返回给Client它所管理部分DataNode的信息。
Client将文献划分为多种Block,根据DataNode的地址信息,按顺序写入到每一种DataNode块中。
2)文献读取
Client向NameNode发起文献读取的祈求。
Block的位置信息。(个人觉得对的,欢迎提出其他意见)
分析:DataNode是文献存储的基本单元,它将Block存储在本地文献系统中,保存了Block的Meta-data,同步周期性地将所有存在的Block信息发送给NameNode。NameNode返回文献存储的DataNode的信息。
Client读取文献信息。
。()
这个有分歧:具体正在找这方面的有利资料。下面提供资料可参照。
一方面明确一下概念:
(1).长连接
Client方与Server方先建立通讯连接,连接建立后不断开,然后再进行报文发送和接受。这种方式下由于通讯连接始终存在,此种方式常用于点对点通讯。
(2).短连接
Client方与Server每进行一次报文收发交易时才进行通讯连接,交易完毕后立即断开连接。此种方式常用于一点对多点通讯,例如多种Client连接一种Server.
。(错误)
分析:hadoop只能制止好人出错,但是不能制止坏人干坏事
,因此它的磁盘越大越好。(错误)
分析:一旦Slave节点宕机,数据恢复是一种难题
–report命令用于检测HDFS损坏块。(错误)
26. Hadoop默认调度器方略为 FIFO(对的)
27. 集群内每个节点都应当配 RAID,这样避免单磁盘损坏,影响整个节点运营。(错误)
分析:一方面明白什么是RAID,可以参照百科磁盘阵列。这句话错误的地方在于太绝对,具体状况具体分析。题目不是重点,知识才是最重要的。由于hadoop自身就具有冗余能力,因此如果不是很严格不需要都配备RAID。具体参照第二题。
,因此NameNode是不存在单点问题的。(错误)
槽就是一种线程。(错误)
分析:一方面我们懂得什么是map槽,map 槽->map slotmapslot 只是一种逻辑值(),而不是相应着一种线程或者进程
inputsplit就是一种block。(错误)
WebUI端口是50030,它通过jetty启动的 Web服务。(错误)
用于设立所有Hadoop 守护线程的内存。它默认是 200GB。(错误)
分析:hadoop为各个守护进程(namenode,secondarynamenode,jobtracker,datanode,tasktracker)统一分派的内存在hadoop-,参数为HADOOP_HEAPSIZE,默觉得1000M。
cluster 的时候,如果 log中报告不兼容文献版本,那需要NameNode执行“Hadoopamenode-format”操作格式化磁盘。(错误)
分析:
一方面明白简介,什么ClusterID
ClusterID。添加了一种新的标记符ClusterID用于标记集群中所有的节点。当格式化一种Namenode,需要提供这个标记符或者自动生成。这个ID可以被用来格式化加入集群的其她Namenode。
以上就是小编整顿的大数据面试题及答案,准备或者是正在参与大数据的面试的朋友可以收藏一下好好看看,做好充足的准备参与每一场的面试,祝你成功!