1 / 14
文档名称:

旅游大数据平台方案.doc

格式:doc   大小:230KB   页数:14页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

旅游大数据平台方案.doc

上传人:sdnmy78 2022/7/5 文件大小:230 KB

下载得到文件列表

旅游大数据平台方案.doc

相关文档

文档介绍

文档介绍:-
. z.
旅游研究院大数据挖掘与分析
科研平台建立案
背景
数据挖掘和大数据分析行业背景和开展趋势
移动互联网、电子商务以及社交媒体的快速开展使得企业需要面临的数据量成指可视化算法。
科研平台功能规划
本科研平台针对数据挖掘有大数据分析研究容,兼顾科研与教学的需求,既能满足科研工作中对大数据分析高性能平台要求也具有教学实验平台简单易用的特点。
大数据资源规划
置商业级数据资源,按常见科研分类规划数据资源,可以直接用于科学研究,具有数据资源授权管控功能。
大数据分析功能规划
建立以商业版Hadoop为核心的大数据分析平台,系统提供MapReduce以及Spark等大数据挖掘功能。系统具有完整的管理调度功能。
硬件资源功能规划
系统具有24个Intel *eonE5 CPU计算能力,提供超过40TB的存储能力以及1T以上的存,可满足1000任务共时计算能,便扩大。
数据挖掘与大数据分析科研平台建立案
大数据科研平台设备架构

-
. z.
主节点和备份主节点
主节点负责整个分布式大数据平台的运行。主节点始终在存中保存整个文件系统的目录构造,每个目录有哪些文件,每个文件有哪些分块及每个分块保存在哪个计算上,用于处理读写请求。同时,主节点还负责将作业分解成子任务,并将这些子任务分配到各个计算节点上。备份主节点在主节点发生故障时承当主节点的各种任务,使得分布式大数据平台仍然能够正常运行。
管理节点
管理节点用于管理整个分布式大数据平台,可进展节点安装、配置、效劳配置等,提供网页窗口界面提高了系统配置的可见度,而且降低了集群参数设置的复杂度。
接口节点
终端用户通过接口节点连接和使用分布式大数据平台,提交任务并获得结果,并可以用其他数据分析工具做进一步处理,与外界进展数据交互〔如连接关系型数据库〕。
计算节点
分布式大数据平台包含了多个计算节点。计算节点是系统中真正存储数据和做数据运算的节点。每个计算节点期性地和主节点通信,还时不时和客户端代码以及其他计算节点通信。计算节点还维护一个开放的socket效劳器,让客户端代码和其他计算节点通过它可以读写数据,这个效劳器还会汇报给主节点。
大数据科研平台底层架构
大数据科研平台低层架构以我司自主研发的商业版Hadoop为根底架构,包含和大数据分析、数据挖掘、机器学习等功能模块,并以HDFS以及Hbase作为存储根底。
图2. 软件架构
分布式持久化数据存储——HDFS
Hadoop分布式文件系统〔HDFS〕被设计成适合运行在通用硬件上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。
-
. z.
HDFS放宽了一局部POSI*约束,来实现流式读取文件系统数据的目的。
分布式实时数据库——HBase
HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个构造化数据的分布式存储系统〞。就像Bigtable利用了Google文件系统〔所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于BigTable的能力。HBase是Apache的Hadoop工程的子工程。HBase不同于一般的关系数据库,它是一个适合于非构造化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。
分布式资源调度管理——YARN
框架。YARN分层构造的本质是 ResourceManager。这个实体控制整个集群并管理应用程序向根底计算资源的分配。ResourceManager 将各个资源局部〔计算、存、带宽等〕精心安排给根底 NodeManager〔YARN 的每节点代理〕。ResourceManager 还与 ApplicationMaster 一起分配资源,与 NodeManager 一起启动和监视它们的根底应用程序。在此上下文中,ApplicationMaster 承当了以前的 TaskTracker 的一些角色,ResourceManager 承当了 JobTracker 的角色。
交互式SQL引擎——Hive
Hive是基于Hadoop的一个数据仓库工具,可以将构造化的数据文件映射为一数据库表,并提供简单的SQL查询功能,可以将SQ

最近更新

2019-2020年幼儿园保育员业务水平考试试题试题.. 11页

2019-2020年幼儿园学前班保育员业务水平考试试.. 12页

2019-2020年度幼儿园保育员三级业务能力考试试.. 12页

2019-2020年度幼儿园保育员五级业务能力考试试.. 12页

2019-2020年度幼儿园学前班保育员上学期考试试.. 12页

2019-2020年度幼儿园学前班保育员理论考试试题.. 10页

2019三年级语文教师上学期工作计划与2019三月.. 11页

2019年一级保育员过关检测试卷B卷-附解析 5页

2019年一级(高级技师)保育员模拟考试试题C卷-.. 5页

2019年二级保育员综合练习试题D卷-附答案 5页

2019年保育员高级技师综合练习试卷C卷-含答案.. 5页

2019年初级保育员模拟考试试题C卷-附答案 5页

2019年幼儿园个人研修计划模板【范文】与2019.. 4页

2019年幼儿园保育员三级业务能力考试试题A卷-.. 11页

2019年幼儿园保育员五级职业技能考试试题-(附.. 11页

2019年幼儿园保育员职业技能考试试题及答案 12页

2019年幼儿园小班保育员开学模拟考试试题试题.. 10页

2019年重点小学三年级数学上学期月考试卷D卷-.. 4页

2019年重点小学二年级语文【上册】提升训练试.. 4页

2019年重点小学二年级语文上学期过关练习试卷.. 4页

2019版【职业资格考试】幼儿园保育员三级业务.. 12页

2019版幼儿园保育员三级专业能力考试试题及解.. 12页

茶园生态系统的可持续发展-洞察阐释 35页

遥感大数据分析-洞察阐释 33页

教科版科学三年级下册全册知识点归纳整理 6页

电子及计算机毕业设计周记 4页

某公司质量管理体系及质量手册(doc 45页) 45页

尼日尔矿业法 2页

生物安全标准操作规程 12页

生物安全体系文件 5页