1 / 36
文档名称:

移动大数据分析-2013数据库技术大会.pdf.pdf

格式:pdf   页数:36页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

移动大数据分析-2013数据库技术大会.pdf.pdf

上传人:unnwldv331 2016/4/29 文件大小:0 KB

下载得到文件列表

移动大数据分析-2013数据库技术大会.pdf.pdf

相关文档

文档介绍

文档介绍:大数据分析在移动互联网的应用陈继东首席数据科学家人人游戏大数据研究中心 邮件: chenjd@ 微博: @ 大数据皮东 主要内容?大数据分析概述 ? –大数据整体框架 ? –大数据关键技术和工具 ? ?移动大数据分析? –移动大数据应用需求 ? –移动大数据特点和挑战 ? ?案例分析 ? –移动广告分析 ? –移动应用分析 ? 数据管理发展趋势? TXN OPS DW App App App App App App App App 数据库时代 ACID Transactional Data 大数据时代 1. CRUD to CRAP Create Read Update Delete Create Replicate Append Process 2. Too big for RDBMSs 3. Enormous unstructured information Cloud Data Transform big data into actionable Intelligence 大数据整体框架分析工具和服务软 work Compute Storage and Backup Cloud Infrastructure (Virtualized, Scale-out, Secure) 基础架构 Meta Manager Data Processing Engine Data Access & Query Presentation, collaboration and workflow BI and Data Mining Scale-out Data Storage (Content Repository, File System) 横向扩展和虚拟化存储、网络和服务器大数据关键技术和工具? ?数据收集–非结构化数据: Chukwa , Flume, Facebook Scribe –结构化数据: Sqoop , Hiho ?数据存储–分布式文件系统: Hadoop HDFS –大规模并行数据库: Greenplum , Vertica , … –NoSQL : Hbase , MongoDB ,Neo4j –主内存数据库: Redis , VMware Gemfire , SAP HANA ?数据处理(编程模型) –MapReduce : Hadoop MapReduce –大规模并行数据库–BSP: Apache Hama –流式计算: Twitter Storm, Yahoo S4 –主内存计算: Spark, Shark, Scuba 大数据关键技术和工具? ?数据存取–SQL: Hive –Data Flow: Pig –JAQL ?数据序列化–Google Protocol Buffer, Avro, Facebook Thrift ?元数据管理和工作流–协作: Zookeeper –工作流: Oozie , Cascading ?监控与管理–集成: Ironfan on top of Chef, Amazon EMR –监控管理: HUE, Cacti, Ganglia, Karmasphere 大数据关键技术和工具? ?关键技术–大规模并行数据库–NoSQL /NewSQL –并行处理引擎( Hadoop MapReduce ) –流式计算( Storm ,Spark ) –并行数据挖掘和机器学习–分布式存储/ 文件系统–云计算基础架构 MapReduce vs 并行数据库特征? 并行数据库? MapReduce ? 模式支持( scheme ) ? 有? 无? 索引? 有无? 编程模型? Declarative 声明性( SQL ) ? Imperative (C/C++, Java, …) 可以通过 Hive 和Pig 扩展? 查询优化? 有? 无灵活性? 无? 有容错? 粗粒度? 细粒度可扩展性? 上百个节点? 上千个节点?应用于不同的场景, 互为补充 MapReduce vs 并行数据库?当前并行数据库的问题–扩展性: 需要扩展到上千台节点–容错性: 需要改进容错, 更细粒度, 更高效率–灵活性: 需要 Scheme free 的处理, 更好适应非结构化数据–成本: 更多开源实现和外围开源工具?MapReduce 类方案的问题( Hive ) ? –性能: 当前为次优的实现, 增加索引和查询优化–实时处理能力: 实时加载, 实时复杂查询能力–标准的 SQL 接口: 应用迁移, 与 DW 透明访