1 / 8
文档名称:

大数据分析与处理方法解读.doc

格式:doc   页数:8页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

大数据分析与处理方法解读.doc

上传人:gyzhluyin 2016/4/19 文件大小:0 KB

下载得到文件列表

大数据分析与处理方法解读.doc

相关文档

文档介绍

文档介绍:大数据分析与处理方法解读【文章摘要】要知道,大数据已不再是数据大,最重要的现实就是对大数据进行分析,只有通过分析才能获取很多智能的,深入的,有价值的信息。越来越多的应用涉及到大数据, 这些大数据的属性, 包括数量, 速度, 多样性等等都是呈现了大数据不断增长的复杂性,所以,大数据的分析方法在大数据领域就显得尤为重要, 可以说是决定最终信息是否有价值的决定性因素。基于此,大数据分析的方法理论有哪些呢? 大数据分析的五个基本方面 apabilities (预测性分析能力) 数据挖掘可以让分析员更好的理解数据, 而预测性分析可以让分析员根据可视化分析和数据挖掘的结果做出一些预测性的判断。 DataQualityandMasterDataManagement (数据质量和数据管理) 数据质量和数据管理是一些管理方面的最佳实践。通过标准化的流程和工具对数据进行处理可以保证一个预先定义好的高质量的分析结果。 AnalyticVisualizations (可视化分析) 不管是对数据分析专家还是普通用户, 数据可视化是数据分析工具最基本的要求。可视化可以直观的展示数据,让数据自己说话,让观众听到结果。 SemanticEngines (语义引擎) 我们知道由于非结构化数据的多样性带来了数据分析的新的挑战, 我们需要一系列的工具去解析,提取,分析数据。语义引擎需要被设计成能够从“文档”中智能提取信息。 DataMiningAlgorithms (数据挖掘算法) 可视化是给人看的, 数据挖掘就是给机器看的。集群、分割、孤立点分析还有其他的算法让我们深入数据内部, 挖掘价值。这些算法不仅要处理大数据的量, 也要处理大数据的速度。假如大数据真的是下一个重要的技术革新的话, 我们最好把精力关注在大数据能给我们带来的好处,而不仅仅是挑战。大数据处理大数据处理数据时代理念的三大转变: 要全体不要抽样, 要效率不要绝对精确, 要相关不要因果。具体的大数据处理方法其实有很多, 但是根据长时间的实践, 笔者总结了一个基本的大数据处理流程, 并且这个流程应该能够对大家理顺大数据的处理有所帮助。整个处理流程可以概括为四步,分别是采集、导入和预处理、统计和分析,以及挖掘。采集大数据的采集是指利用多个数据库来接收发自客户端的数据, 并且用户可以通过这些数据库来进行简单的查询和处理工作。比如, 电商会使用传统的关系型数据库 MySQL 和 Oracl e 等来存储每一笔事务数据, 除此之外, Redis 和 MongoDB 这样的 NoSQL 数据库也常用于数据的采集。在大数据的采集过程中, 其主要特点和挑战是并发数高, 因为同时有可能会有成千上万的用户来进行访问和操作, 比如火车票售票网站和淘宝, 它们并发的访问量在峰值时达到上百万, 所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行负载均衡和分片的确是需要深入的思考和设计。统计/ 分析统计与分析主要利用分布式数据库, 或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等, 以满足大多数常见的分析需求, 在这方面, 一些实时性需求会用到 EMC 的 GreenPlum 、 Oracle 的 Exadata ,以及基于 MySQL 的列式存储 Infobright 等, 而一些批处理,或者基于半结构化数据的需