1 / 6
文档名称:

最新BAT大数据面试题.docx

格式:docx   大小:15KB   页数:6页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

最新BAT大数据面试题.docx

上传人:cjl201702 2021/1/21 文件大小:15 KB

下载得到文件列表

最新BAT大数据面试题.docx

相关文档

文档介绍

文档介绍:最新 BAT大数据面试题
资料仅供参考
1 、kafka 的 message 包括哪些信息
一个 Kafka 的 Message 由一个固定长度的 header 和一个变长的消息体 body 组成
header 部分由一个字节的 magic( 文件格式 ) 和四个字节的 CRC32( 用于判断 body 消息体是否正常 )构成。当 magic 的值为 1 的时候,
会在 magic 和 crc32 之间多一个字节的数据:
attributes( 保存一些相关属性,比如是否压
缩、压缩格式等等 );如果 magic 的值为 0 ,
那么不存在 attributes 属性
body 是由 N 个字节构成的一个消息体,包含
了具体的 key/value 消息
2 、怎么查看 kafka 的 offset
资料仅供参考
版本以上,能够用最新的 Consumer clien
t 客户端,有 () / con
() 能够用于得到当前最新的 o
ffset :
3 、hadoop 的 shuffle 过程
一、 Map 端的 shuffle
Map 端会处理输入数据并产生中间结果,
这个中间结果会写到本地磁盘,而不是
HDFS 。每个 Map 的输出会先写到内存缓冲区
中,当写入的数据达到设定的阈值时,系统将
会启动一个线程将缓冲区的数据写到磁盘,这
个过程叫做 spill 。
spill 写入之前,会先进行二次排序,首先根据数据所属的 partition 进行排序,然后
资料仅供参考
每个 partition 中的数据再按 key 来排序。
partition 的目是将记录划分到不同的
Reducer 上去,以期望能够达到负载均衡,以
后的 Reducer 就会根据 partition 来读取自己
对应的数据。接着运行 combiner( 如果设置了
的话 ),combiner 的本质也是一个
Reducer ,其目的是对将要写入到磁盘上的文
件先进行一次处理,这样,写入到磁盘的数据
量就会减少。最后将数据写到本地磁盘产生
spill 文件 (spill 文件保存在
{} 指定的目录中, Map 任务
结束后就会被删除 )。
资料仅供参考
最后,每个 Map 任务可能产生多个 spill 文
件,在每个 Map 任务完成前,会经过多路归并
算法将这些 spill 文件归并成一个文