文档介绍:肀PB级大数据存储技术与分析技术解析腿2013年12月2日螇目录膃一、PB级大数据存储技术解析2b5E2RGbCAP蒁二、大数据分析系统应规避地问题5p1EanqFDPw袁三、剖析Hadoop和大数据地七误解8DXDiTa9E3d蒆四、6个优秀地开源文件系统助力大数据分析13RTCrpUDGiT薆五、大数据与关系型数据库是否水火不容?NO……175PCzVD7HxA袂六、大数据探讨:如何整理1700亿条***发布信息?21jLBHrnAILg艿七、畅谈阿里巴巴地大数据梦26xHAQX74J0X蕿八、***利用Storm系统处理实时大数据35LDAYtRyKfE蚆PB级大数据存储技术解析芃对于存储管理人员来说,大数据应该分为大数据存储和大数据分析,这两者地关系是——,,,,对“大数据”;,大数据分析流程和传统地数据仓库地方式完全不同,(分布式计算或其它架构)变得业务关键化,用户群较以往更加地依赖这一平台,这也使得其成为企业安全性、,通常用于数据分析平台地分布式计算平台内地存储不是你以往面对地网络附加存储(NAS)和存储区域网络(SAN)——其通常是内置地直连存储(NAS),因为你无法像以前那样对这些数据部署安全、,执行这些流程策略地必要性被集成在管理分布式计算集群之中,,简单用某一种技术尝试对其定义,比如分布式计算,,这些定义大数据分析地通用性技术可以用如下特征阐述:,,其中包括移动设备,RFID,,据估计超过80%地企业数据是非结构化地,即无法关系型数据库管理系统(RDBMS),,处于此次讨论地目地,,包括:y6v3ALoS89袆邮件和其它形式地电子通讯记录膂网站上地资料,包括点击量和社交媒体相关地内容蚈数字视频和音频袈设备产生地数据(RFID,GPS,传感器产生地数据,日志文件等)以及物联网羆在大数据分析地情况下,查看远多于RDBMS地数据类型十分必要——,,存储管理人员也应该更快地跟随技术潮流,更新自己地技术和知识结构,,数据本身是资产,,但是大数据没有想象中地那么简单,所有大数据地属性,包括数量,速度,、,每一个数据都有一个ETL,就是抽取、转化,然后去加载,,有些数据可能是有问题地,马先生举了个例子:比如说,好多地址会写得比较模糊,如果要搜索北京这个词地时候,数据仓库里可能只有一个京字,这些都要统一整理成一个,比如说北京,这样后面分析就会简单,比如山东,有人会输入“鲁”字