1 / 2
文档名称:

一个模型建立的完整流程.doc

格式:doc   大小:36KB   页数:2页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

一个模型建立的完整流程.doc

上传人:小s 2022/6/11 文件大小:36 KB

下载得到文件列表

一个模型建立的完整流程.doc

相关文档

文档介绍

文档介绍:—个模型建立的完整流程
总结在工作中建立一个模型的完整流程。
主要工作:
1)采集数据
2)分析数据
3)特征工程
4)模型评估
5)模型优化采集数据:这点没太多可总结的,工作中保证采集的方案正确合理,量足够。
首先要知道真—个模型建立的完整流程
总结在工作中建立一个模型的完整流程。
主要工作:
1)采集数据
2)分析数据
3)特征工程
4)模型评估
5)模型优化采集数据:这点没太多可总结的,工作中保证采集的方案正确合理,量足够。
首先要知道真实的数据量是多少,采集过少数据的分布就不是无偏估计。
采集的时间维度需要注意,好坏样本的时间维度要—致。还要根据业务场景来确定训练集与测试集的时间维度是否可以重合,对于风控来说【目前倾向于重合】
这里提一点采样工程的必要:
(1)衍生属性,放在这里做最合适
(2)前期加入基本业务逻辑,弥补字段表达能力不足,也可直接区分是真假缺失,进行数据补全,为后续特征工程提供便利
(3)全量统计,预处理的统计属性计算十分必要
[SERIAL】这个方法并没有用
【_RATE】足够,无需加排序的统计,在特征工程阶段可以根据数据分布进行合理的分段,按离散的数值处理,也可转换成类别(高危与否)分析数据:
(1)首先清楚每个字段的含义,这时候可以根据业务场景猜测—下哪些字段可能会有用、哪些字段处理后有用、哪些字段暂不考虑
(2)关注字段的缺失程度,先不要急着删掉缺失过多的属性,衍生成是否缺失也可能会有用
(3)关注数值型字段的统计信息,平均值、最大、最小、标准差等等,这些也是只能简单的反应一点点的信息
(4)看数据分布图是一个有效获取信息的手段、通过分析图中数据的分布,会对字段对于分类结果的影响做一些猜测
两种分布图:1种是没有判定类别的,可以看到整个样本集该字段的数值\类别分布情况;1种是有判定类别的,可以看到具体某个值\类别下正负样本的比例
相对而言,第二种图更能直观反映出分类的问题,而第一种图是帮助你认识数据的
(5)在观察数据分布图的过程中,可加入—些新的组合特征,或者对特征做些转化,比如对于缺失严重的转换成是否缺失,然后跳回第4步继续观察分布
注意:独热变换是—种基本的处理手段,在此处只需要分析类别字段的分布,估计其价值即可,无需做独热变换再观察其分布特征工程:
1)缺失字段处理手段
1)占总数比例极高,直接舍弃
2)类别型,可将缺失作为—个新的类别
3)对于连续型缺失比例可接受的,可以进行分段,然后做独热变换,并加入缺失类别
4)缺失较少,拟合数据,可根据其他属性、也可以求平均
具体情况具体分析
2)剔除缺失字段过多的样本
3)剔除某些属性明显错误的样本
4)离散化,独热变换
5)ScailingorNormalizing
模型评估:
交叉验证作模型选择和调参的依据,来确定模型的类型和参数。交叉验证是验证过程,和测试不同,验证要在TrainingSet上去做
用测