1 / 5

文档名称：

数据分析面试常见问题.docx

格式：docx 大小：24KB 页数：5页

下载后只包含 1 个 DOCX 格式的文档，没有任何的图纸或源代码，查看文件列表

如果您已付费下载过本站文档，您可以点这里二次下载

分享

预览

下载此文档

数据分析面试常见问题.docx

上传人:小熙 2022/3/7 文件大小：24 KB

下载得到文件列表

数据分析面试常见问题.docx

相关文档

文档介绍

文档介绍：数据分析面试常见问题
1、海量日志数据，提取出某日访问百度次数最多的那个

IP。
首先是这一天，并且是访问百度的日志中的

IP 取出来，逐个写入到一个大文件中。注
算法，解决方案如下：
方案

1 ：
顺序读取

10 个文件，按照

hash(query) 的结果将

query

写入到另外

10 个文件（记为）中。
这样新生成的文件每个的大小大约也

1G（假设

hash 函数是随机的）。
找一台内存在 2G 左右的机器，依次对用 hash_map(query, query_count) 出现的次数。利用快速 / 堆 / 归并排序按照出现次数进行排序。将排序好的输出到文件中。这样得到了 10 个排好序的文件（记为）。 query_cout

来统计每个 query
query 和对应的
对这 10 个文件进行归并排序（内排序与外排序相结合）。
方案 2：
一般 query 的总量是有限的，只是重复的次数比较多而已，可能对于所有的 query，一
次性就可以加入到内存了。这样，我们就可以采用 trie 树 /hash_map 等直接来统计每个 query
出现的次数，然后按出现次数做快速 / 堆 / 归并排序就可以了。
方案 3：
与方案 1 类似，但在做完 hash，分成多个文件后，可以交给多个文件来处理，采用分
布式的架构来处理（比如 MapReduce），最后再进行合并。
5、给定 a、 b 两个文件，各存放 50 亿个 url ，每个 url 各占 64 字节，内存限制是 4G，
让你找出 a、 b 文件共同的 url？
方案 1：可以估计每个文件安的大小为 5G× 64=320G，远远大于内存限制的 4G。所以
不可能将其完全加载到内存中处理。考虑采取分而治之的方法。
遍历文件 a，对每个 url 求取 hash(url)00 ，然后根据所取得的值将 url 分别存储到 1000
个小文件（记为 a0,a1, ,a999）中。这样每个小文件的大约为 300M 。
遍历文件 b，采取和 a 相同的方式将 url 分别存储到 1000 小文件（记为 b0,b1, ,b999）。
这样处理后，所有可能相同的 url 都在对应的小文件（ a0vsb0,a1vsb1, ,a999vsb999）中，不
对应的小文件不可能有相同的 url。然后我们只要求出 1000 对小文件中相同的 url 即可。
求每对小文件中相同的 url 时，可以把其中一个小文件的 url 存储到 hash_set 中。然后
遍历另一个小文件的每个 url ，看其是否在刚才构建的 hash_set 中，如果是，那么就是共同
的 url ，存到文件里面就可以了。
方案 2：如果允许有一定的错误率，可以使用 Bloom filter ，4G 内存大概可以表示 340
亿 bi

相关标签

2023沭阳城区规划小汉镇征地规划乌鲁木齐鲤鱼山路规划殷行地区动迁规划宜州四桥建设规划南充蓬安区交通规划惠州水口将来的规划贵州罗甸2023年规划菏泽东电厂附近规划重庆鸳鸯最新商业规划

最近更新

2025年美业太阳文化宣传范文（通用篇） 40页

2025年给新加坡朋友的一封信（精选篇） 22页

2025年给外婆的一封信作文600字（精选29篇） 36页

2025年经济法学论文范文（集锦篇） 44页

2025年经典生日慰问信（集锦8篇） 11页

2025年经典平安夜祝福三（共篇） 20页

2025年经典五年级学生评语（共篇） 101页

2025年红红火火的闹元宵作文（精选篇） 25页

2025年纠结时光的散文（共篇） 36页

2025年糖让生活更美好作文（共篇） 18页

2025年精选小学毕业叙事作文：倾听（精选29篇.. 34页

2025年管理知识：什么是感情效应？（共9篇） 26页

2025年简洁的每日一签早安心语朋友圈摘录（共.. 32页

2025年第二册能被2、5整除的数（共8篇） 19页

2025年第一次用心感受落雪作文（共23篇） 24页

高一学生的实践报告-学习方法和实践报告 23页

2025年第一次一个人睡（精选6篇） 7页

2025年第一册《我是小学生》教学设计（精选篇.. 52页

2025美国心肺复苏指南--关键问题和重大更新 5页

民间借贷纠纷判决书 4页

平面直角坐标系中三角形面积求法例题及对应练.. 3页

2024年重庆市中考物理试卷（B卷）(附答案） 10页

实用新型专利转让合同 2页

西部之光访问学者接收单位一览表 12页

两癌筛查宣传 50页

中文绘本-上床睡觉ppt课件 17页

孕前优生培训课件 29页

杨树达：与胡适之论诗经言字书 5页

猜你喜欢

房树人——解析 10页

九年级历史电气时代的到来1公开课一等奖课件赛.. 19页

中考生物第一轮复习资料第二单元丰富多彩的生.. 102页

三年级数学面的复习公开课一等奖课件赛课获奖.. 21页

七年级数学去括号5公开课一等奖课件赛课获奖课.. 12页

(外研版)高中英语必修一模块1-6单词和短语复习.. 87页

高二数学复数的乘法与乘方1公开课一等奖课件赛.. 7页

高三地理月考公开课一等奖课件赛课获奖课件 65页

高一生物细胞呼吸与光合作用公开课一等奖课件.. 18页

语文313《说不尽的狗》(1)(粤教版必修2)公开课.. 29页

黄山松作文(合集8篇) 6页

高三开学仪式主持词（通用2篇） 5页

领导发言稿(汇编3篇) 4页

难忘的经历作文(集锦7篇) 13页

陌生人来敲门的作文（精选20篇） 11页