1 / 4
文档名称:

大数据技术与应用赛项竞赛试题样卷.pdf

格式:pdf   大小:291KB   页数:4页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

大数据技术与应用赛项竞赛试题样卷.pdf

上传人:青山代下 2024/3/29 文件大小:291 KB

下载得到文件列表

大数据技术与应用赛项竞赛试题样卷.pdf

相关文档

文档介绍

文档介绍:该【大数据技术与应用赛项竞赛试题样卷 】是由【青山代下】上传分享,文档一共【4】页,该文档可以免费在线阅读,需要了解更多关于【大数据技术与应用赛项竞赛试题样卷 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。大数据技术与应用赛项竞赛试题(样卷)近年来随着IT产业的加速发展,全国各地对IT类的人才需求也越来越多“ABC公司”为了明确今后IT产业人才培养方向,在多地进行IT公司岗位情况调研分析。你所在的小组将承担模拟调研分析的任务,通过在招聘网站进行招聘信息的爬取,获取到公司名称、工作地点、岗位名称、招聘要求、招聘人数等信息,并通过对数据的清洗和分析,得出各地域招聘人数,“大数据”相关职位招聘数量,以绘制雷达图展示各地平均薪资情况。为完成该项任务,你所在的小组计划选用在业界广泛应用的“Python和JAVA”语言,作为整个项目的基础语言,并综合利用requests模块、MapReduce、MySQL、Flask开源框架、Jinja2模板引擎和ECharts组件提高开发效率并实现项目要求,由于本次为模拟任务,总数据量不会过大,项目组计划使用分布式节点Hadoop模式,本次项目环境搭建采用服务器集群方式,配置了小规模的技术演示环境,通过在招聘网站上爬取到的相关信息,使用requests模块、Hive、Python、JAVA等手段对数据进行爬取、清洗、整理、计算、表达、分析,力求实现对IT人才就业信息拥有更清晰的掌握。请按照下面步骤完成本次技术展示任务,并提交技术报告。任务一:Hadoop相关组件安装部署(15分)当前环境中已安装Hadoop运行环境和MySQL数据库,相关安装信息如下表所示,请在此环境基础上按照相关操作步骤安装Hive组件。;;;;。任务二:数据采集与数据预处理(20分),提取有效数据项,并保存为json格式文件;;,并赋值变量;,通过json方法,写入json数据;,在HDFS文件系统中创建文件夹,并将json文件上传到该文件夹下。任务三:数据清洗与分析(25分),需要对爬取出的数据进行清洗,使用Java语言编写数据清洗的MapReduce程序;,并对HDFS的原始数据进行清洗;;;,并查看表中大数据核心技能的出现次数。任务四:数据可视化(20分)为更好的将数据分析结果表达出来,需要对数据分析的结束进行可视化呈现,可视化呈现,本次数据可视化需要呈现三部分内容:,并在前端显示。要求:主标题:各地域招聘人数副标题:(--招聘人数变化趋势)横坐标:城市信息,纵坐标:“大数据”相关职位招聘数量差异,并在前端显示。要求:主标题:大数据相关职位分析副标题:(--招聘数量变化趋势)横坐标:岗位名称,纵坐标:。要求:主标题:各地平均薪资输出雷达图任务五:完成分析报告(15分)请结合数据分析结果回答以下问题:,为什么(4分)(4分),大数据行业的人才培养方向有哪些,为什么(4分),今后大数据产业地域发展方向在哪里(3分):1)任务成果需拷贝至提供的U盘中。在U盘中以XX工位号建一个文件夹(例如01),将所有任务成果文档保存至该文件夹中。2)竞赛提交的所有文档中不能出现参赛队信息和参赛选手信息,竞赛文档需要填写参赛队信息时以工位号代替(XX代表工位号)。