1 / 38
文档名称:

大数据分析案例解析.pdf

格式:pdf   大小:587KB   页数:38页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

大数据分析案例解析.pdf

上传人:977562398 2019/5/7 文件大小:587 KB

下载得到文件列表

大数据分析案例解析.pdf

文档介绍

文档介绍:预备数据读取数据摘要与清洗模型选择模型训练与评估模型组合与预测回顾大数据分析的一条入门途径——以拍拍贷风控模型预测为例范方达Kesci“魔镜杯”“因为认识耶和华的知识要充满遍地,好像水充满洋海一般。”(以赛亚书11:9)........................................预备数据读取数据摘要与清洗模型选择模型训练与评估模型组合与预测回顾出发点•大数据是更多人可以理解的•大数据的方法也是更多人可以学会的•大数据没有祖传秘方——不要把曾经初学的我们拦在外面•这并不是唯一一个正确答案,而是恩典在面对每一个小小的困难中的累积“因为认识耶和华的知识要充满遍地,好像水充满洋海一般。”(以赛亚书11:9)........................................预备数据读取数据摘要与清洗模型选择模型训练与评估模型组合与预测回顾目的•为数据分析初学者提供一点点数据分析的思路•为Python初学者提供一点点Python处理数据的技巧•为机器学****过程遇到的难题提供一点点解决方案“因为认识耶和华的知识要充满遍地,好像水充满洋海一般。”(以赛亚书11:9)........................................预备数据读取数据摘要与清洗模型选择模型训练与评估模型组合与预测回顾大纲预备数据读取数据摘要与清洗模型选择模型训练与评估模型组合与预测回顾“因为认识耶和华的知识要充满遍地,好像水充满洋海一般。”(以赛亚书11:9)........................................预备数据读取数据摘要与清洗模型选择模型训练与评估模型组合与预测回顾数据与目标“魔镜杯”风控算法大赛复赛数据•样本•训练样本:初赛训练集+初赛预测集+复赛训练集(8万)•预测样本:复赛预测集(1万)•自变量•主表(226个)•登录信息(4个,但每个index有多条)•用户更新信息(3个,但每个index有多条)•预测变量Y:每个index的6个月内贷款逾期情况(0-1)•优化目标:预测变量Y在预测样本的AUC得分“因为认识耶和华的知识要充满遍地,好像水充满洋海一般。”(以赛亚书11:9)........................................•Packages:•代码笔记本:jupyter•基础:numpy,scipy,pandas,matplotlib,time,re•模型:sklearn,xgboost,keras(theano),hyperopt•Windows下建议Anaconda,包含科学计算的众多常用包“因为认识耶和华的知识要充满遍地,好像水充满洋海一般。”(以赛亚书11:9)........................................预备数据读取数据摘要与清洗模型选择模型训练与评估模型组合与预测回顾流程预览开始完成数据读取预测提交数据摘要模型2训练模型组合调优数据清洗模型2参数优化模型1训练模型2(、3等)模型1交叉验证拆分预训练与变量评估模型1参数优化“因为认识耶和华的知识要充满遍地,好像水充满洋海一般。”(以赛亚书11:9)........................................预备数据读取数据摘要与清洗模型选择模型训练与评估模型组合与预测回顾数据读取•Q:数据集有一些不同的文件,怎样合成一个数据呢?•A:首先我们可以根据数据类型为它们重命名来分门别类•项目名(PPD)可以做前缀,区分项目时一目了然•主表(da)、历史记录(dah)、辅助(daa)、初赛预测列(day)•训练集(t)、预测集(v)•重复的可以通过字段和数字序号添加后缀标识•用pandas包批量读数据•+map++文件名的list•记得读数据时将文件中表示空值的一些符号标记为空值•通过主表DataFrame的fillna把初赛预测列填充好“因为认识耶和华的知识要充满遍地,好像水充满洋海一般。”(以赛亚书11:9)........................................