1 / 9
文档名称:

大数据分析教程.docx

格式:docx   大小:63KB   页数:9页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

大数据分析教程.docx

上传人:wenjiaosuoa 2022/6/21 文件大小:63 KB

下载得到文件列表

大数据分析教程.docx

相关文档

文档介绍

文档介绍:大数据分析教程一一制作数据报告的流程
数据层
分析层
输出层
上图中可以很清楚的看到,一个数据报告(副本)依据
需求不同,有普通难度(蓝->橙->绿->红),也有英雄难度(蓝 ->橙->绿+黄->红),这次我们先讲普通难度 果你要找金融类的数据,这种方法比较实用。其他类型的数 据也有人做,但通常要收费。
3、 自行收集所需数据,比如用爬虫工具爬取点评网站 的商家评分、评价内容等,或是直接自己人肉收集(手工复 制下来),亦或是找一个免费问卷网站做一份问卷然后散发 给你身边的人,都是可以的。这种方式受限制较少,但工作 量/实现难度相对较大。
如果你是在职人员或是实****生,我建议你不要用任何现 在公司的数据。保证数据的安全性,不对外泄露公司的任何 非公开数据,是数据分析师的基本职业道德。
实在非要用(例如你要在面试中展示你在以前公司做过 的数据报告),请将一切有意义的内容,包括但不限于各种 数字、竞品及本品名称、时间、用户属性全部打码并转成pdf 格式,只留图形和叙事逻辑描述内容。
Step 3 :数据清洗
在工作中,90%以上的情况,你拿到的数据都需要先做 清洗工作,排除异常值、空白值、无效值、重复值等等。这
项工作经常会占到整个数据分析过程将近一半的时间。
如果在上一步中,你的数据是通过手工复制/下载获取的, 那么通常会比较干净,不需要做太多清洗工作。但如果数据 是通过爬虫等方式得来,那么你需要进行清洗,提取核心内 容,去掉网页代码、标点符号等无用内容。
无论你采用哪一种方式获取数据,请记住,数据清洗永 远是你必须要做的一项工作。
Step 4 :数据整理
清洗过后,需要进行数据整理,即将数据整理为能够进 行下一步分析的格式,对于初学者,用Excel来完成这一工 作就OK。
如果你的数据已经是表格形式,那么计算一些二级指标 就好,比如用今年销量和去年销量算出同比增长率。鉴于你 是第一次做数据报告,建议你不要计算太多复杂的二级指标, 基本的同比、环比、占比分布这些就OK。
如果你收集的是一些非数字的数据,比如对商家的点评, 那么你进行下一步统计之前,需要通过“关键词-标签”方式, 将句子转化为标签,再对标签进行统计。
Step 5:描述分析
描述分析是最基本的分析统计方法,在实际工作中也是 应用最广的分析方法。描述统计分为两大部分:数据描述和 指标统计。
数据描述:用来对数据进行基本情况的刻画,包括:数 据总数、时间跨度、时间粒度、空间范围、空间粒度、数据 来源等。如果是建模,那么还要看数据的极值、分布、离散 度等内容。这次我们是零基础做数据报告,那么就不用考虑 后一类数据了。
指标统计:用来作报告,分析实际情况的数据指标,可 粗略分为四大类:变化、分布、对比、预测;
1、 变化:指标随时间的变动,表现为增幅(同比、环 比等);
2、 分布:指标在不同层次上的表现,包括地域分布(省、 市、区县、店/网点)、用户群分布(年龄、性别、职业等)、 产品分布(如动感地带和全球通)等;
3、 对比:包括内部对比和外部对比,内部对比包括团 队对比(团队A与B的单产对比、销量对比等)、产品线对 比(动感地带和全球通的ARPU、用户数、收入对比);外部 对比主要是与市场环境和竞争者对比;这一部分和分布有重 叠的地方