1 / 8
文档名称:

ETL实验报告.doc

格式:doc   大小:2,074KB   页数:8页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

ETL实验报告.doc

上传人:才艺人生 2021/10/21 文件大小:2.03 MB

下载得到文件列表

ETL实验报告.doc

文档介绍

文档介绍:ETL实验报告
ETL实验报告
姓名:
学号:
创建数据源
在数据源/文件/文本文件-、、、。
创建工程、新建转换,并装载文本文件数据源,如下图所示:

创建工程函数
calIDcard:实现由15位身份证到18位身份证的转变
calAge:由身份证计算实际年龄
calSex:由身份证计算性别
calBirth:由身份证计算出生年月日
calPID:由身份证号计算省编号
calPhone:由手机号码计算运营商编号
calTime:把通话记录的通话时长转换成以秒为单位的数字
以上函数的实现源码如下:



输出错误数据
错误数据包括年龄缺失、年龄错误、性别缺失、性别错误。在过滤条件中利用自定义函数过滤即可,过滤条件为:is_empty(Age)==true || Age!=calAge(IDCard) || is_empty(Sex)==true || Sex!=calSex(IDCard),如图所示:

户籍信息修正
在高级清洗转换中利用自定义函数把15位身份证转换为18位,把年龄缺失、年龄错误、性别缺失、性别错误修正,如下图所示:

删除重复行
原数据中可能存在重复数据,利用数据转换中的删除重复行可删除重复数据,同时可以在错误输出中得到重复的数据。
加载电话号码信息
加载电话号码信息,然后利用高级清洗转换把电话号码信息中的15位身份证号码转换成18位身份证号码。
连接身份证号码和电话信息
利用内连接,把户籍信息和电话号码信息通过身份证