文档名称：

一个模型建立的完整流程.doc

格式：doc 大小：36KB 页数：2页

下载后只包含 1 个 DOC 格式的文档，没有任何的图纸或源代码，查看文件列表

如果您已付费下载过本站文档，您可以点这里二次下载

预览

下载此文档

一个模型建立的完整流程.doc

上传人:小s 2022/6/11 文件大小：36 KB

下载得到文件列表

一个模型建立的完整流程.doc

相关文档

文档介绍

文档介绍：—个模型建立的完整流程
总结在工作中建立一个模型的完整流程。
主要工作:
1）采集数据
2）分析数据
3）特征工程
4）模型评估
5）模型优化采集数据:这点没太多可总结的，工作中保证采集的方案正确合理，量足够。
首先要知道真—个模型建立的完整流程
总结在工作中建立一个模型的完整流程。
主要工作:
1）采集数据
2）分析数据
3）特征工程
4）模型评估
5）模型优化采集数据:这点没太多可总结的，工作中保证采集的方案正确合理，量足够。
首先要知道真实的数据量是多少，采集过少数据的分布就不是无偏估计。
采集的时间维度需要注意，好坏样本的时间维度要—致。还要根据业务场景来确定训练集与测试集的时间维度是否可以重合，对于风控来说【目前倾向于重合】
这里提一点采样工程的必要：
（1）衍生属性，放在这里做最合适
（2）前期加入基本业务逻辑，弥补字段表达能力不足，也可直接区分是真假缺失，进行数据补全，为后续特征工程提供便利
（3）全量统计，预处理的统计属性计算十分必要
[SERIAL】这个方法并没有用
【_RATE】足够，无需加排序的统计，在特征工程阶段可以根据数据分布进行合理的分段，按离散的数值处理，也可转换成类别（高危与否）分析数据：
（1）首先清楚每个字段的含义，这时候可以根据业务场景猜测—下哪些字段可能会有用、哪些字段处理后有用、哪些字段暂不考虑
（2）关注字段的缺失程度，先不要急着删掉缺失过多的属性，衍生成是否缺失也可能会有用
（3）关注数值型字段的统计信息，平均值、最大、最小、标准差等等，这些也是只能简单的反应一点点的信息
（4）看数据分布图是一个有效获取信息的手段、通过分析图中数据的分布，会对字段对于分类结果的影响做一些猜测
两种分布图：1种是没有判定类别的，可以看到整个样本集该字段的数值\类别分布情况；1种是有判定类别的，可以看到具体某个值\类别下正负样本的比例
相对而言，第二种图更能直观反映出分类的问题，而第一种图是帮助你认识数据的
（5）在观察数据分布图的过程中，可加入—些新的组合特征，或者对特征做些转化，比如对于缺失严重的转换成是否缺失，然后跳回第4步继续观察分布
注意：独热变换是—种基本的处理手段，在此处只需要分析类别字段的分布，估计其价值即可，无需做独热变换再观察其分布特征工程：
1）缺失字段处理手段
1）占总数比例极高，直接舍弃
2）类别型，可将缺失作为—个新的类别
3）对于连续型缺失比例可接受的，可以进行分段，然后做独热变换，并加入缺失类别
4）缺失较少，拟合数据，可根据其他属性、也可以求平均
具体情况具体分析
2）剔除缺失字段过多的样本
3）剔除某些属性明显错误的样本
4）离散化，独热变换
5）ScailingorNormalizing
模型评估：
交叉验证作模型选择和调参的依据，来确定模型的类型和参数。交叉验证是验证过程，和测试不同，验证要在TrainingSet上去做
用测