1 / 75
文档名称:

天池实践手册文库.docx

格式:docx   大小:915KB   页数:75页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

天池实践手册文库.docx

上传人:小博士 2019/11/16 文件大小:915 KB

下载得到文件列表

天池实践手册文库.docx

相关文档

文档介绍

文档介绍:Alibaba天池实践手册刖弓木手册从天池选手的角度出发,建模以及预测。通过具体的案例场漿引导用户使用御膳房平台进行数据开发、数据本手册将从以下儿个步骤來描述如何使用御膳房进行数据分析和建模:课题介绍环境和账号获取数据实现步骤由于是基于特定案例引导,本文展示的仅仅是ODPS和算法功能的冰山一角。关于详细的ODPS和算法功能,可以通过在线帮助手册了解更多。请参考ODPS在线帮助手册。主要参考模块:基木介绍、常用命令、SQL语法,MR语法。关于MR的使用和配置力法请参考御膳房用户手册。内容前言 I内容 II课题介绍 1课题介绍 错误!未定义书签。数据说明 2输出要求 3评估指标 3解题思路 3环境、账号 5登录御膳房 错误!未定义书签。获取数据 7项H首页 7查看数据 9实现步骤 10数据开发平台的使用(以下也称IDE) 11准备工作 11数据分析 15特征工程 21PAI平台 47PAI简介 47数据抽样 49建模和评估 54PAI命令及模型同步 64线上测试集的训练和预测 65名词解释 68修订历史 691课题介绍1-1背景随着移动电商业务的快速发展,用八对移动端网络的访问是随时随地的,具有更丰富的场景数据。如何在这些巨大的信息数据小快速挖掘出对我们有用的信息己成为当前急需解决的问题。对于移动电商來说,可以运用这些冇用的信息以及个性化技术的手段,对川户进行一系列的个性化推荐,帮助用户从这些网络过量的信息里面筛出他所需耍的信息,提升移动端用八的用户体验,提升个性化推荐引导的成交率,从而达到楮准营销(Precisionmarketing)的目的。如下是一个简单的个性化推荐的流程:数据准备数据辕化数据抽取数据挖掘 挖掘应用数据收集户为据动据易据“用行数互数交数・结构化数据非结构I化数据0—■商品行为数据为基础,同时提供移动时代特有的位置信息。您需要通过人数据和算法构建面向移动电子商务的商品推荐模型,挖掘数据背后丰富的内涵,为移动用户在合适的时间、合适的地点精准推荐合适的内容。在真实的业务场景下,我们往往需要对所有商晶的一个子集构建个性化推荐模型。在完成这件任务的过程屮,我们不仅需要利用用户在这个商品子集上的行为数据,往往还需要利用更丰富的用户行为数据。如下是一个真实的业务场景:给出一定量川户在时间段“月18H-12月18FI内的移动端行为数据(D),需要预测12月19日用户对商品了集(P)的购买数据。具体的数据说明下面将会详细介绍。1-。第一部分是用户在商品全集上的移动端行为数据(D),mend_t「ain_user,包含如卜-字段:字段字段说明提取说明userjd用户标识抽样&字段脱敏item」d商品标识字段脱敏behavior_type用户对商品的行为类型包括浏览、收藏、加购物车、购买,对应取值分别是1、2、3、4ouser_geohash用户位置的空间标识,可以为空由经纬度通过保密的算法生成item_category商品分类标识字段脱敏Time行为时间精确到小时级别D集合的记录显示如F:^categorytine9951255437320317394gn6nd92322014-11-2620_9909811一266982489134752014-12-02239869256827121464194h63np52012014-11-191396089426_114407102二1949g5i38362014-11-260790795949402391768194h6dlp30462014-12-0921963634563791268151107322014-12-0723_9599383078579528150272014-12-101095591350584293341J95ipq3o41902014-12-111396927552101192540294oid7242802014-12-0519毎一行代表了用户use「_id対属于分类item_category的物品item」d在time这个时间于地点user_geohash发牛了交互,交互类型是behavior_type。behavior_type包括浏览、收藏、加购物车、购买,对应収值分别是1、2、3、4。给出的一共包含31天的交互数据,最后要预测第32天冇哪些user会购买哪些item。第二个部分是商品子集(P),mend_train_item,包含如下字段:字段字段说明提取说明item」d商晶标识抽样&字段脱敏it