文档介绍:大数据时代下数据挖掘简易
第一页,共35页。
0 引言
大数据开启了一次重大的时代转型。就想望远镜让我们能够感受宇宙,显微镜让我们能够观测微生物一样,大数据正在改变我们的生活以及理解世界的方式,成为新创造和新效劳的源泉,而更多的改变正蓄势待发……
一场生活、工作与思维的大变革
第二页,共35页。
引言
一场生活、工作与思维的大变革
大数据,变革公共卫生
大数据,变革商业
大数据,变革思维
大数据,开启重大的时代转型
预测,大数据的核心
大数据,大挑战
第三页,共35页。
什么是大数据
2021年,甲型H1N1流感在全球爆发传播,为了发现和控制疫情,各国政府和卫生相关部门付出了巨大努力,但得到的数据仍然滞后一两周,而Google对人们的搜索的历史记录进展处理,建立合理的数学模型后,得到的预测结果与官方的数据相关性高达97%,能够立刻判断出流感是从哪里传播出来的,没有一两周的滞后。
Google处理了5000万条历史记录、。
第四页,共35页。
什么是大数据
Farecast是一个对机票价格进展预测的公司,帮助消费者抓住最正确购置机票的时机,使乘客节省很多钱。
最初预测系统建立在41天之内的12000个价格样本根底上,数据是从旅游网站上抓取的,如今已经拥有超过2000亿条飞行记录。
系统只推测机票的价格何时最廉价,不关心是什么原因导致的价格下降。
Farecast→Bing
第五页,共35页。
大数据的特性
大数据
的特性
更关注
相关性
主要用
于预测
数据量
巨大
实时性
要求高
第六页,共35页。
目录
01
大数据时代的思维变革
02
大数据时代的商业变革
03
大数据时代的管理变革
第七页,共35页。
一、大数据时代的思维变革
第八页,共35页。
一、大数据时代的思维变革—更多
“更多〞——不是随机样本,而是全体数据
当数据处理技术已经发生翻天覆地的变化时,在大数据时代进展抽样分析就像在汽车时代骑马一样。一切都改变了,我们需要的是所有的数据,“样本=总体〞。
让数据“发声〞
小数据时代的随机采样,最少的数据获得最多的信息
全数据模式,样本=总体
第九页,共35页。
一、大数据时代的思维变革—更杂
“更杂〞——不是准确性,而是混杂性
执迷于准确性是信息缺乏时代和模拟时代的产物。只有5%的数据是有框架且能适用于传统数据库的。如果不能承受混乱,剩下95%的非框架数据都无法被利用,只有承受不准确性,我们才能翻开一扇从未涉足的世界的窗户。
允许不准确
大数据的简单算法比小数据的复杂算法更有效
纷繁的数据越多越好
混杂性,不是竭力防止,而是标准途径
新的数据库设计的诞生
第十页,共35页。