文档介绍:大数据技术与应用
LT
附件25:
高职电子信息大类大数据技术与应用赛项
技能竞赛规程、评分标准及选手须知
一、竞赛内容
赛项名称:大数据技术与应用
赛项内容:以大数据技术与应用为核心内容,重点考察参赛选手在Hadoop平台环境下,对于大规模并行数据处理以及内存计算技术的应用能力。具体包括:
1. 掌握Hadoop平台环境部署与基本配置,了解基于大数据计算平台的常见应用;
2.综合利用numpy、pandas、matplotlib、scikit 模块和MapReduce技术、分布式存储系统HDFS、分布式计算框架MapReduce/Yarn、数据仓库Hive、Python等开发语言工具和技术,匹配和连接数据源,实现大数据的采集,提取、清洗、转换、分析、挖掘操作,产生分析结果,并且实现可视化呈现。
3.依据项目应用需求和分析结果,完成数据分析报告的编写。
二、竞赛方式
本赛项为团体赛,每支参赛队由3名参赛选手组成。
三、竞赛时量
竞赛时间4小时,竞赛连续进行。
四、名次确定办法
名次确定办法原则上按照竞赛总成绩从高分到低分排序确立选手名次。总成绩相同时,完成时间较短者名次列前;成绩和完成时间均相同时,操作过程较规范者名次列前。
五、评分标准与评分细则
1.评分标准
本赛项总分为100分,采取分项计分制(表1)。
表1 考核环节及评分标准
考核环节
考核知识点和技能点
分值
Hadoop平台安装部署
Hadoop平台安装部署和基本配置。
15
HDFS常用操作命令(查询文件类别、上传、删除文件、查询HDFS基本统计信息)。
Hadoop集群的性能调优。
数据抓取
规则文件数据和关系型数据库数据抓取以及数据同步(同Hadoop/Hive数据同步)。
30
掌握Hive数据仓库导入、导出以及同Hadoop数据文件的转换,实现Hive数据管理常用命令。
能够通过Python编程,使用streaming和MapReduce机制实现数据的抓取。
数据清洗、整理、计算和表达
基于MapReduce的HDFS文件系统的文件数据的数据查询、整理和计算。
20
大数据平台软件
Hadoop
开发语言
数据分析工具
Pandas
Python集成开发环境
pycharm-community-
浏览器
Chrome/firefox
文档编辑器
Office 2007及以上版本
2.竞赛技术平台
比赛技术平台:《北京四合天地大数据实训管理系统》。
学生可以“随时、随地”在一套系统中进行多种类型的大数据相关内容的训练及比赛,并且可以在线进行操作系统级的真机模拟训练测试、充分体验和掌握大数据相关技能。
教师(裁判)可以方便组织和安排大数据实训(竞赛),并且可以实时了解学生的训练及竞赛状态。训练、竞赛完毕后,教师(裁判)可以查看每位学生的测评报告,并且了解各个学生对大数据相关知识点和操作技能的掌握情况。
3.办公物品
参赛选手U盘、签字笔;裁判用时钟、计算器、铅笔、钢笔、橡皮、订书机、打印机等其他物品。
七、选手须知
(一)选手自带工具