文档介绍:Clementine的数据处理
介绍Clementine的数据处理技术,学****如何合并和处理文件,样本数据,处理缺失值和时序数据
培训内容
第一章 合并多个数据源数据
第二章 抽取样本,选择和缓存数据
第三章 处理缺失数据
第四章 处理日期
第五章 处理时序数据
第六章 文件操作
第七章 效率
2
编辑ppt
第一章
合并多个数据源数据
3
编辑ppt
第一章 合并多个数据源数据
内容:
使用追加节点串联包含相似字段的记录集的文件
使用合并节点把不同数据源的信息加入到现有数据源
使用超级节点简化数据流区域的内容
数据:
, ,
4
编辑ppt
追加节点合并数据文件
不同组记录的相似信息有可能存储在不同数据文件
不同财政年度的银行帐目信息
不同学年的考试结果
不同部门的欺诈信息
不同周的事务办理数据
追加节点可以合并两个或者更多的数据源,可以分析和比较不同记录组的相似信息。
5
编辑ppt
文件读入
追加节点读取并下传来自同一数据源的所有记录直至该数据源不再有记录为止,然后读取下一个数据源的记录。
第一个读入的数据源的数据结构(记录和字段数目等)默认为输出数据的数据结构。
追加节点假定读入的数据源和最初输入源有相似的数据结构,根据不同数据文件的字段名合并数据。
6
编辑ppt
字段数目不同时的读入规则
如果一个输入的字段数目比最初数据源少,输入源记录缺失的字段用未定义值($null$)填补。
如果一个输入的字段数目比最初数据源多,默认为从流中过滤掉多余的字段,有一个选项可以允许输入所有数据集的字段,所有记录缺失的字段用未定义值($null$)填补。
7
编辑ppt
追加文件
确定选中“从文件读取字段名”
使用追加节点连接两个数据源节点
使用制表节点分别输出表格
8
编辑ppt
输入条目改变主数据集
9
编辑ppt
条目设置
10
编辑ppt