1 / 6
文档名称:

大数据考点总结.docx

格式:docx   大小:174KB   页数:6页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

大数据考点总结.docx

上传人:cjl201702 2020/12/8 文件大小:174 KB

下载得到文件列表

大数据考点总结.docx

相关文档

文档介绍

文档介绍:大数据考点总结
———————————————————————————————— 作者:
———————————————————————————————— 日期:
名词解释
a doo p: 是一个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构。基于 Java 语言开发的,具有很好的跨平台特性,并且可以部署在廉价的计
算机集群中。核心是分布式文件系统H DFS(H adoop D is trib u t e d ) 和 M
pRe duc e。


是 Hadoop的一个分布式文件系统的访问模式是一次写入、多次读取

, 它的主要设计理念为存储超大文件 , 运行在普通廉价的服务器上。

, 最高效
se:

是一个高可靠、高性能、面向列、可伸缩的分布式数据库,主要用来存储非结构化和半结构化的松散数据。 $ hba se sh ell
: AM P 实验室于 2009 年开发 ,基于内存计算的大数据并行计算框架 ,可用于构建
大型的、低延迟的数据分析应用程序
. 推荐系统 : 是自动联系用户和物品的一种工具,通过研究用户的兴趣偏好,进行个性化计算 ,帮助用户从海量信息中去发掘自己潜在的需求
网络爬虫 : 又称为网络蜘蛛, 是一种按照一定的规则 ,自动的抓取万维网信息的程序或者脚本。
7.大数据 : 一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库能力范围
的数据集合( 3.处理速度快 4 价值密度低即 Vol ume 、 Variet y、Val ue 、Velo city )
8.
物联网 :物物相连的互联网 ,是互联网的延伸,它利用局部网络或互联网等通信技术把传感
器、控制器、机器、人员和物等通过新的方式联在一起
,形***与物、物与物相
联 ,实现信息化和远程管理控制
9.
云计算: 通过整合和管理分布在网络各处的计算资源
,提供可伸缩的、廉价的分布式计算
能力 ,通过互联网以统一界面,向大量的用户提供服务的一种模式
10 数据可视化 :将大型集中的数据以图形图像形式表示
,并利用数据分析和开发工具发现其
中未知信息的处理过程
简答题
有哪些组件以及功能 ?
:主要组件有分布式文件系统HDF S,为海量数据提供存储 ; 分布式并行编程模型M apre d uce 为用户提供强大的计算能力。