文档名称：

大数据考点总结.docx

格式：docx 大小：68KB 页数：4页

下载后只包含 1 个 DOCX 格式的文档，没有任何的图纸或源代码，查看文件列表

如果您已付费下载过本站文档，您可以点这里二次下载

预览

下载此文档

大数据考点总结.docx

上传人:文库旗舰店 2019/5/15 文件大小：68 KB

下载得到文件列表

大数据考点总结.docx

相关文档

文档介绍

文档介绍：:是一个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构。基于Java语言开发的,具有很好的跨平台特性,并且可以部署在廉价的计算机集群中。核心是分布式文件系统HDFS(HadoopDistributedFileSystem)和MapReduce。:是Hadoop的一个分布式文件系统,它的主要设计理念为存储超大文件,最高效的访问模式是一次写入、多次读取,运行在普通廉价的服务器上。:是一个高可靠、高性能、面向列、可伸缩的分布式数据库,主要用来存储非结构化和半结构化的松散数据。$:AMP实验室于2009年开发,基于内存计算的大数据并行计算框架,可用于构建大型的、:是自动联系用户和物品的一种工具,通过研究用户的兴趣偏好,进行个性化计算,:又称为网络蜘蛛,是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库能力范围的数据集合(、Variety、Value、Velocity):物物相连的互联网,是互联网的延伸,它利用局部网络或互联网等通信技术把传感器、控制器、机器、人员和物等通过新的方式联在一起,形***与物、物与物相联,:通过整合和管理分布在网络各处的计算资源,提供可伸缩的、廉价的分布式计算能力,通过互联网以统一界面,向大量的用户提供服务的一种模式10数据可视化:将大型集中的数据以图形图像形式表示,?答:主要组件有分布式文件系统HDFS,为海量数据提供存储;分布式并行编程模型Mapreduce为用户提供强大的计算能力。?答:从分布式文件系统读入数据、执行Map任务输出中间结果、通过Shuffle阶段把中间结果分区排序整理后发送给Reduce任务、执行Reduce任务得到最终结果并写入分布式文件系统。(执行map函数把一组键值对按照相关的规则映射成一组新的键值对,并交由归约函数处理)?答:(1)库函数:链接到每个客户端(2)一个Master主服务器(3)?答(1)数据类型:关系数据库采用关系模型,HBase则采用了更加简单的数据模型(2)数据操作:关系数据库中包含了丰富的操作,HBase操作只有简单的插入、查询、删除、清空等(3)存储模式:关系数据库是基于行模式存储的,HBase是基于列存储的。(4)数据索引:关系数据库通常可以针对不同列构建复杂的多个索引,以提高数据访问性能。HBase只有一个索引——行键(5)数据维护:在关系数据库中,更新操作会用最新的当前值去替换记录中原来的旧值,旧值被覆盖后就不会存在。而在HBase中执行更新操作时,并不会删除数据旧的版本(6)可伸缩性:关系数据库很难实现横向扩展,纵向扩展的空间也比较有限。而hbase正好相反。