1 / 5
文档名称:

大数据分析与处理.docx

格式:docx   大小:14KB   页数:5页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

大数据分析与处理.docx

上传人:niupai11 2022/5/23 文件大小:14 KB

下载得到文件列表

大数据分析与处理.docx

文档介绍

文档介绍:: .
大数据分析与处理
一、大数据分析与处理
1. 文件批处理
以MapReduce、Hive为可扩展。伴随着业务的发展,我们的数据量、计算量可能会越来越大,所以希望这个系统是可扩展的。
容错。这是分布式系统中通用问题。一个节点挂了不能影响我的应用。
缺点:
无法查看明细数据:
只能看特定粒度的汇总结果,而过车记录是无法先计算出来的,即无法预知那个车有可能会犯罪,那个车会出事故,故无法预计算。
4. 预计算分析
全量数据处理系统,存在的主要问题就是查询性能太差,也无并发性而言。为了解决查询延迟问题,很多离线系统的做法就是预先将每天要分析统计的指标计算好,存储在一个可以高速访问的系统里面如HBase或者传统数据里面,供报表系统进行展示,供常规多维分析使用。
随后发现这类需求有一共性企业针对每种业务都单独写一遍HiveSQL,再导入到传统数据库里面,再供报表系统查询。很麻烦,而且这类的需求很多所以业界出现了很多预计算系统,主要目的就是将业务进行预先计算,供业务进行访问,主要特点是使用非常便捷,极大的缩短的程序开发的时间,提升了开发效率,有的甚至将离线计算与流计算进行了结合,提供了更加实时的报表功能。
业界典型的产品代表,莫过于ApacheKylin。Kylin是为减少在Hadoop上百亿规模数据查询延迟而设计
lHadoopANSISQL接口:
Kylin为Hadoop提供标准SQL支持大部分查询功能
l交互式查询能力:
通过Kylin,用户可以与Hadoop数据进行亚秒级交互,在同样的数据集上提供比Hive更好的性能
l多维立方体(MOLAPCube):
用户能够在Kylin里为百亿以上数据集定义数据模型并构建立方体
l与BI工具无缝整合:
Kylin提供与BI工具,如Tableau,的整合能力,即将提供对其他工具的整合
5. 即席分析
预计算系统可以有效的解决数据查询的响应时间问题,但是现实中有很多数据是无法实现预计算的,或者预计算的代价是非常昂贵的,一个几万列的大宽表,各种维度笛卡尔组合后的结果集甚至比原生数据都多好多倍,如果用户在来个模糊检索,预计算的指标值多的简直是不可想象的。只有那些预先知道的场景可以使用预计算,有些场景是无法预先知道的,也就无法进行预计算的。
即席(AdHoc)查询与分析是用户根据自己的需求,灵活的选择查询条件,系统能够根据用户的选择生成相应的统计报表。即席查询与普通应用查询最大的不同是普通的应用查询是定制开发的,而即席查询是由用户自定义查询条件的。
在一个即席分析系统里面,用户的查询条件不再像预计算系统那样受限,检索、统计、排序等都根据用户的意愿去查询,查询的列数也不受任何限制,可以是一个维度也可以是任意维度的组合。
"即席分析"源于互联网公司对海量数据的即时性分析,后台系统和数据分析师通过不断地对海量数据进行探索性的查询与分析,挖掘大数据潜在价值,是互联网公司将数据变现的重要手段。
随着大数据在各行各业的应用,越来越多的行业客户对即席分析有着强烈的需求,要求能够对千亿甚至万亿规模数据进行高时效性地分析挖掘,这也是衡量各行业大数据应用