1 / 34
文档名称:

总结大数据基础知识汇总.pdf

格式:pdf   页数:34页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

总结大数据基础知识汇总.pdf

上传人:分享精品 2016/7/16 文件大小:0 KB

下载得到文件列表

总结大数据基础知识汇总.pdf

文档介绍

文档介绍:FusionInsight 培训材料大数据基础知识 1 大数据概念与hadoop简介 1 大数据行业应用 2 大数据架构简介 3 2 20世纪90年代,数据仓库之父的Bill Inmon就经常提及Big Data 2011年5 月,在“云计算相遇大数据”为主题的EMC World 2011 会议中,EMC 抛出了Big Data概念 Big Data名词由来 3 大数据市场趋向稳定 4 大量数据存储海量计算大量数据管理数据分析大数据定义-不同的声音 5 维基百科:“大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合” IDC:一般会涉及2种以上数据形式,数据量100T以上,且是高速、实时数据流;或者从小数据开始,但数据每年增长60% Gartner:大数据的四个V:Volume、Variety、Velocity、Value Volume:数据量巨大 Velocity:分析处理速度快 Variety:种类和来源多样化?集中储存/集中计算已经无法处理巨大的数据量?日志/图片/视频/文档/地理位置…?海量数据的及时有效分析 Value:价值密度低,商业价值高?大量的不相关信息的进行复杂深度分析,深挖价值精准营销深入洞察统一监控分析另外IBM有大数据5V特征定义,增加了一个Veracity(真实性) 什么是大数据 6 百万封电子邮件,一分钟读一篇的话, 年… 万个小时的视频上传到Youtube, 年…推特上每天发布5 千万条消息,假设10 秒钟浏览一条信息,这些消息足够一个人昼夜不息的浏览16 年… 百万笔订单…每个月网民在Facebook 上要花费7 千亿分钟,… Google 上每天需要处理24PB 的数据…在web ,人们从信息的被动接受者变成了主动创造者海量数据从哪里来-人 7 海量数据从哪里来-机器 Boeing:飞机每个引擎3分钟产生 1TB数据,波音 7876小时飞行产生240TB数据 CERN:大型强子对撞产生1PB/s的数据 SKA:2015年存储需要1EB 云化IDC建设催生了数据大集中 Facebook:每天产生50TB的日志数据,衍生分析数据超过100TB “机器制造”和“人工制造”共同贡献了海量数据,集中式的数据中心建设加速数据集中 8 大数据的结构特征平均1个P数据中非结构化为主(例互联网公司) ?互联网: Google, 百度 Facebook, *** ,新浪…. 数据以非结构化处理为主?在企业大数据中, 仍然是以结构化数据处理为主结构化半结构化非结构化~35% ~27% 用户行为轨迹(个体) User Profile 内容(ITEM,图像、视频、文本)数据 21个历史详单查询社交网络数据(群体) Web Page & Log ~ 23% ~5 % ~10 % 结构化为主(例电信运营商) ~15% ~3% ~12% 网络XDR (探针俘获后,含历史) 计费CDR(含历史) 主数据(三户+订购+接触等含历史) 分析汇总数据(含历史) CUBE和统一视图~7% 互联网Web Page & Log(含历史)~13% 社交网络数据~18% ~25 % 内容(图像、视频、文本)数据~7% 9 传统的数据处理系统面临的问题,呼唤新的技术?海量数据的高存储成本?大数据量下的数据处理性能不足?流式数据处理缺失?有限的扩展能力?单一数据源?数据资产对外增值数据扩展性需求和硬件性能之间存在差距新的业务需求,需要新的大数据处理平台