1 / 15
文档名称:

旅游大数据平台方案说明.doc

格式:doc   大小:228KB   页数:15页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

旅游大数据平台方案说明.doc

上传人:kh6797 2022/2/14 文件大小:228 KB

下载得到文件列表

旅游大数据平台方案说明.doc

相关文档

文档介绍

文档介绍:...wd...
...wd...
...wd...
旅游研究院大数据挖掘与分析
科研平台建立方案
背景
数据挖掘和大数据分析行业背景和开展趋势
移动互联网、电子商务以及社交媒体的快速开展使得企业需要面临的数据量成系统,集成10TB大数据案例集及可拖拽的数据算法和可视化算法。
科研平台功能规划
本科研平台针对数据挖掘有大数据分析研究内容,兼顾科研与教学的需求,既能满足科研工作中对大数据分析高性能平台要求也具有教学实验平台简单易用的特点。
大数据资源规划
内置商业级数据资源,按常见科研分类规划数据资源,可以直接用于科学研究,具有数据资源授权管控功能。
大数据分析功能规划
建立以商业版Hadoop为核心的大数据分析平台,系统提供MapReduce以及Spark等大数据挖掘功能。系统具有完整的管理调度功能。
硬件资源功能规划
系统具有24个Intel XeonE5 CPU计算能力,提供超过40TB的存储能力以及1T以上的内存,可满足1000任务共时计算内能,方便扩大。
...wd...
...wd...
...wd...
数据挖掘与大数据分析科研平台建立方案
大数据科研平台设备架构

主节点和备份主节点
主节点负责整个分布式大数据平台的运行。主节点始终在内存中保存整个文件系统的目录构造,每个目录有哪些文件,每个文件有哪些分块及每个分块保存在哪个计算上,用于处理读写请求。同时,主节点还负责将作业分解成子任务,并将这些子任务分配到各个计算节点上。备份主节点在主节点发生故障时承当主节点的各种任务,使得分布式大数据平台仍然能够正常运行。
管理节点
管理节点用于管理整个分布式大数据平台,可进展节点安装、配置、效劳配置等,提供网页窗口界面提高了系统配置的可见度,而且降低了集群参数设置的复杂度。
接口节点
终端用户通过接口节点连接和使用分布式大数据平台,提交任务并获得结果,并可以用其他数据分析工具做进一步处理,与外界进展数据交互〔如连接关系型数据库〕。
计算节点
分布式大数据平台包含了多个计算节点。计算节点是系统中真正存储数据和做数据运算的节点。每个计算节点周期性地和主节点通信,还时不时和客户端代码以及其他计算节点通信。计算节点还维护一个开放的socket效劳器,让客户端代码和其他计算节点通过它可以读写数据,这个效劳器还会汇报给主节点。
...wd...
...wd...
...wd...
大数据科研平台底层架构
大数据科研平台低层架构以我司自主研发的商业版Hadoop为根底架构,包含和大数据分析、数据挖掘、机器学****等功能模块,并以HDFS以及Hbase作为存储根底。
图2. 软件架构
分布式持久化数据存储——HDFS
Hadoop分布式文件系统〔HDFS〕被设计成适合运行在通用硬件上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一局部POSIX约束,来实现流式读取文件系统数据的目的。
分布式实时数据库——HBase
HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个构造化数据的分布式存储系统〞。就像Bigtable利用了Google文件系统〔所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于BigTable的能力。HBase是Apache的Hadoop工程的子工程。HBase不同于一般的关系数据库,它是一个适合于非构造化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。
分布式资源调度管理——YARN
框架。YARN分层构造的本质是 ResourceManager。这个实体控制整个集群并管理应用程序向根底计算资源的分配。ResourceManager 将各个资源局部〔计算、内存、带宽等〕精心安排给根底 NodeManager〔YARN 的每节点代理〕。ResourceManager 还与 ApplicationMaster 一起分配资源,与 NodeManager 一起启动和监视它们的根底应用程序。在此上下文中,ApplicationMaster 承当了以前的 TaskTracker 的一些角色,ResourceManager 承当了 JobTracker 的角色。
...wd...
...wd...
...wd...