1 / 15
文档名称:

2018最新BAT大数据面试题.docx

格式:docx   大小:71KB   页数:15页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

2018最新BAT大数据面试题.docx

上传人:2072510724 2020/9/16 文件大小:71 KB

下载得到文件列表

2018最新BAT大数据面试题.docx

相关文档

文档介绍

文档介绍:.1、kafka 的message 包括哪些信息一个Kafka的Messageheader 部分由一个字节的是否正常)构成。当magic由一个固定长度的 header 和一个变长的消息体 body 组成magic(文件格式)和四个字节的 CRC32(用于判断 body 消息体的值为1的时候,会在magic 和crc32之间多一个字节的数据:attributes( 保存一些相关属性,比如是否压缩、压缩格式等等 );如果magic 的值为0,那么不存在attributes 属性body 是由N个字节构成的一个消息体,包含了具体的 key/value 消息2、怎么查看 kafka ,可以用最新的 Consumer client 客户端,有 () / () 可以用于得到当前最新的 offset:3、hadoop 的shuffle 过程一、Map端的shuffleMap端会处理输入数据并产生中间结果, 这个中间结果会写到本地磁盘, 而不是HDFS。每个Map 的输出会先写到内存缓冲区中,当写入的数据达到设定的阈值时,系统将会启动一个线程将缓冲区的数据写到磁盘,这个过程叫做 spill。在spill写入之前,会先进行二次排序, 首先根据数据所属的 partition 进行排序,然后每个partition 中的数据再按 key来排序。partition 的目是将记录划分到不同的 Reducer上去,以期望能够达到负载均衡, 以后的Reducer 就会根据 partition 来读取自己对应的数据。biner( 如果设置了的话 ),combiner 的本质也是一个 Reducer,其目的是对将要写入到磁盘上的文件先进行一次处理, 这样,写入到磁盘的数据量就会减少。 最后...将数据写到本地磁盘产生 spill文件(spill文件保存在{} 指定的目录中,Map 任务结束后就会被删除 )。最后,每个Map任务可能产生多个spill文件,在每个Map任务完成前,会通过多路归并算法将这些spill文件归并成一个文件。至此,Map的shuffle过程就结束了。二、Reduce端的shuffleReduce端的shuffle主要包括三个阶段,copy、sort(merge)和reduce。首先要将Map端产生的输出文件拷贝到Reduce端,但每个Reducer如何知道自己应该处理哪些数据呢?因为Map端进行partition的时候,实际上就相当于指定了每个Reducer要处理的数据(partition就对应了Reducer),所以Reducer在拷贝数据的时候只需拷贝与自己对应的partition中的数据即可。每个Reducer会处理一个或者多个partition,但需要先将自己对应的partition中的数据从每个Map的输出结果中拷贝过来。接下来就是sort阶段,也成为merge阶段,因为这个阶段的主要工作是执行了归并排序。从Map端拷贝到Reduce端的数据都是有序的,所以很适合归并排序。最终在Reduce端生成一个较大的文件作为Reduce的输入。最后就是 Reduce 过程了,在这个过程中产生了最终的输出结果,并将其写到 HDFS上。4、spark 集群运算的模式Spark 有很多种模式,最简单就是单机本地模式,还有单机伪分布式模式,复杂的则运行在集群中,目前能很好的运行在 Yarn和Mesos 中,当然 Spark 还有自带的 Standalo...ne模式,对于大多数情况 Standalone 模式就足够了,如果企业已经有 Yarn 或者Mesos环境,也是很方便部署的。standalone( 集群模式):典型的Mater/slave 模式,不过也能看出 Master 是有单点故障的;Spark支持ZooKeeper 来实现 HAon yarn(集群模式):运行在 yarn 资源管理器框架之上,由 yarn 负责资源管理, Spark负责任务调度和计算on mesos(集群模式):运行在 mesos 资源管理器框架之上, 由mesos 负责资源管理,Spark 负责任务调度和计算on cloud(集群模式):比如 AWS 的EC2,使用这个模式能很方便的访问 Amazon 的S3;Spark 支持多种分布式存储系统: HDFS和S35、HDFS读写数据的过程读:1、跟namenode通信查询元数据,找到文件块所在的datanode服务器2、挑选一台datanode(就近原则,然后随机)服务器,请求建立socket流3、datanode开始发送数据(从磁盘里面读取数据放入流,以packet为单位来做校验)4、客

最近更新

异构数据融合的网络嵌入聚类方法研究-洞察阐释.. 43页

颜色在餐厅设计中的情绪调节与功能性优化研究.. 41页

历史艺术作品的数字创作-洞察阐释 41页

森林微气候环境分析-洞察阐释 43页

第二节慢性疼痛的康复评定与处理讲课文档 23页

十二时辰养生法图解 28页

胃肠动力中药作用机制任光荣 35页

基于国产智能芯片的模型移植和优化的研究 10页

单原子Ir-N-C催化生物质平台化合物合成胺类化.. 8页

受弯构件正截面强度计算 29页

正压式空气呼吸器的使用与维护讲课文档 53页

口腔保健妇幼保健院资料儿童口腔保健P 47页

紫外可见分光光度法基础讲课文档 25页

粉末近净成形流变特性的研究现状讲课文档 23页

常见甲状腺疾病的诊疗要点 36页

第八量子力学基础讲课文档 88页

急性髓系白血病规范化治疗讲课文档 105页

蚌医二附院呼吸内科总结计划讲课文档 27页

2025年(精华)幼儿园中班语言教案 34页

绿植花卉租赁合同标准版 7页

2025年(优选)初中英语教学反思 31页

糖皮质激素在呼吸系统中的应用2讲课文档 42页

2025年高中贫困助学申请书 21页

消防突发事件的应急预案 45页

2025年卫生与健康知识竞赛试题库及答案(共100.. 21页

个人工作证明模板word 2页

《幼儿园保育教育质量评估指南》考核测试卷及.. 11页

支承辊最终热处理工艺探讨 4页

XMT80X智能PID温控仪说明书 2页

六年级上册信息技术课件- 6.网上音乐任你选|.. 9页