1 / 4
文档名称:

大数据时代我们都走在裸奔的路上.docx

格式:docx   大小:50KB   页数:4
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

大数据时代我们都走在裸奔的路上.docx

上传人:63229029 2017/5/30 文件大小:50 KB

下载得到文件列表

大数据时代我们都走在裸奔的路上.docx

文档介绍

文档介绍:大数据时代:我们都走在裸奔的路上 1 、相关关系比因果关系更重要老王开了个包子铺,有时做少了不够卖,有时做多了没卖完,两头都是损失。老王琢磨着买包子的都是街坊, 他们买包子是有规律的, 例如老张只在周六买, 因为闺女周末会来看他, 而且闺女就爱吃包子。于是老王每卖一次就记次账, 谁在哪天买了几笼包子, 并试图找出每个街坊的买包子规律。数据虽然越记越多,但老王啥规律也没找出来,即使是老张也都没准,好几个周六都没来买, 因为他闺女有事没来。有个人给老王支招, 你甭记顾客, 就记每天卖了多少笼就行, 这个法子明显简单有效,很容易就看出了周末比平时会多卖两笼的规律。这个例子虽然简单, 却道出了大数据的一个重要特点【相关关系比因果关系更重要】, 周末与买包子人多就是相关关系, 但为什么多呢?是因为老张闺女这样的周六来吃包子的人多?还是周末大家都不愿意做饭?对这些可能性不必探究,因为即使探究往往也搞不清楚, 只要获得了周末买包子的人多,能正确地指导老王在周末时多包上两笼,这就行了。要相关不要因果,这是大数据思维的重要变革,以前数据处理的目标更多是追求对因果性的寻找, 或是对猜测的因果性的验证, 人们总是习惯性地找出个原因, 然后心里才能踏实, 而这个原因是否是真实的, 却往往是无法核实的, 而虚假原因对面向未来的决策来说是有害无益的。承认很多事情是没有原因的,这是人类思维方式的一个重大进步。 2 、要全体不要抽样传统的调查方式都是抽样的,抽取有限的样本进行统计,从而得出整体的趋势来,之所以选择抽样而不是统计全部数据, 只有一个原因, 那就是全部数据的数量太多了, 根本没法操作。抽样的核心原则就是随机性,不随机就不能反映整体趋势性。例如搞一个保暖内衣的调查, 找了一群精壮的武警战士试穿, 战士们穿上了普遍反映不冷, 但这并不能说明内衣的保暖效果有多好。抽样随机性的道理谁都知道,但要做到随机性其实是很难的。例如电视收视率调查, 要从不同阶层随机找被调查人, 但高学历高收入的大忙人们普遍拒绝被调查, 他们根本就不会为几条毛巾赠品而耽误时间, 愿意接受调查的多是整天闲得无聊的低收入者, 电视收视率的调查结果就可想而知。互联网为大数据的采集带来的新手段,云计算为处理大数据带来了新方法。还以电视收视率调查为例, 互联网电视普及后, 每一部电视正在收看什么节目的信息会毫无遗漏地发送到调查中心。这就是大数据的第二个特点【要全体不要抽样】, 对全部数据进行统计分析, 其结果当然会更加准确。 3 、要效率不要精确俗话说的好,萝卜快了不洗泥,既然我们要的是全体数据,自然会夹杂进来一些错误的数据, 这是难以避免的。我们传统的数据分析的思路是“宁缺勿烂”, 因为传统小数据分析的数据量本身并不大, 任何一个错误数据都有可能对结果产生相对较大的负面影响, 对错误数据必须花大精力去** ,这是小数据时代必须坚持的原则。大数据时代的原则就变了,变成了【要效率不要精确】,并不是说精确不好,而是因为在大数据时代是做不到的, 如果继续把排除错误数据作为重要工作, 那大数据分析就进行不下去了。更重要的是, 大数据分析的目标在于预测, 而不在于追溯以前发生过的事件的真相。 4 、大数据时代的裸奔有次我给学生畅想未来,你走在大街上,基站的智能天线以一道极窄的波束指向你的手机, 从而获得你的方位角, 通过开机