文档介绍:该【工业大数据采集处理与应用-项目3 】是由【知识徜徉土豆】上传分享,文档一共【35】页,该文档可以免费在线阅读,需要了解更多关于【工业大数据采集处理与应用-项目3 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。彭振云 唐昭琳
工业大数据采集、处理与应用
课程目录
1
三、工业大数据预处理
理解数据清洗、转换和加载(ETL)的作用与过程
理解数据仓库的基本概念和构建方法
知识目标
技能目标
掌握ETL工具Kettle的应用,能够对数据进行清洗、转换处理
掌握数据仓库工具Hive的使用,能够创建数据仓库、加载数据
掌握Hive查询操作
学习目标
2
三、工业大数据预处理
(一)数据ETL
(二)建立数据仓库
(三)查询大数据
3
什么是ETL?
三、工业大数据预处理
E:Extract,抽取
T:Transform,转换
L:Load,加载
4
三、工业大数据预处理
将分散的、异构的数据源中的数据,从各种原始业务系统抽取到目标库
增量抽取
只抽取自上次抽取以来新增或修改的数据。
全量抽取
将数据源中的表或视图的数据原封不动的从数据库中抽取出来。
数据抽取
5
三、工业大数据预处理
数据转换
替换 (补缺失)
过滤 (去重)
平滑(去噪)
标准化 (规范化)
异常检测(去异常)
数据校验
清洗:删除或者更正脏数据的过程
转换:数据格式转换
数据粒度转换
数据降维
业务规则计算
6
三、工业大数据预处理
数据加载
7
三、工业大数据预处理
启动:
Windows环境下,
ETL工具Kettle
8
三、工业大数据预处理
认识kettle的界面
核心对象视图
9