文档介绍：hadoop 面试题总结 1 总结 1)hadoop 面试题汇总 Hadoop 面试题汇总一、知识点................................................................................................................. .................................... 1 二、经典题................................................................................................................. .................................... 1 三、选择题................................................................................................................. .................................... 1 一、知识点了解 MapReduce 大致流程, map, shuffle, reduce 了解 biner, partition 作用,设置 pression 搭建 hadoop 集群, master/slave 都运行那些服务 HDFS , replica 如何定位版本 -&gt;-&gt;,,, 新旧 API 不同 Hadoop 参数调优, cluster level: JVM, map/reduce slots, job level: reducer #, memory, use biner? use pression? pig latin,Hive 简单语法 HBase,zookeeper 搭建关注 cloudera, hortonenode: avoid single point of failure. 数据流系统: streaming storm(t a group by b; 二、经典题一、现有 1 亿个整数均匀分布,如果要得到前 1K 个最大的数,求最优的算法。(先不考虑内存的限制,也不考虑读写外存,时间复杂度最少的算法即为最优算法) 二、编写一只爬虫,要求: 1 、可配置要爬取的网页 URL 格式 2、可定制要爬取的深度 3 、对爬取下来的页面可由后期调用的程序进行存储(即事件) 三、现有大批量 url 需要爬取,其中 url 的解析以及 n 层抓取已有服务端实现(多级深度),现在给定若干台服务器以及不断增加的客户机,各服务端的 url 任务已有机制保证平衡,爬虫 url 任务由客户机向服务器请求并完成。请设计一个分布式框架,以完成单层的 ur1 抓取,并且每个服务器都能尽可能平均的获取客户机资源。注意: 服务器可能当机。四、设计一套系统,使之能够从不断增加的不同的数据源中,提取指定格式的数据。要求: 1 、运行结果要能大致得知提取效果,并可据此持续改进提取方法; 2 、由于数据来源的差异性,请给出可弹性配置的程序框架; 3 、数据来源可能有 Mysql,sqlserver 等; 4 、该系统具备持续挖掘的能力,即,可重复提取更多信息; 五、编写一个工具,该工具能够根据不同的文档模板,生成提取格式化数据的正则表达式。三、选择题 1. 下面哪个程序负责 HDFS 数据存储。 a)NameNode b)Jobtracker c)Datanode d)secondaryNameNode e)tasktracker 答案 C datanode 2. HDfS 中的 block 默认保存几份? a)3 份 b)2 份 c)1 份 d) 不确定答案 A 默认 3份 3. 下列哪个程序通常与 NameNode 在一个节点启动? a)SecondaryNameNode b)DataNode c)TaskTracker d)Jobtracker 答案 D 分析: hadoop 的集群是基于 master/slave 模式, namenode 和 jobtracker 属于 master , datanode 和 tasktracker 属于 slave , master 只有一个,而 slave 有多个 SecondaryNameNode 内存需求和 NameNode 在一个数量级上,所以通常 secondaryNameNode (运行在单独的物理机器上)和 NameNode 运行在不同的机器