文档介绍：该【旅游大数据平台方案】是由【非学无以广才】上传分享，文档一共【19】页，该文档可以免费在线阅读，需要了解更多关于【旅游大数据平台方案】的内容，可以使用淘豆网的站内搜索功能，选择自己适合的文档，以下文字是截取该文章内的部分文字，如需要获得完整电子版，请下载此文档到您的设备，方便您编辑和打印。旅游研究院大数据挖掘与分析
科研平台建设方案
背景
数据挖掘和大数据分析行业背景和发展趋势
移动互联网、电子商务以及社交媒体的迅速发展使得公司需要面临的数据量成指数增长。根据IDC《数字宇宙》(DigitalUniverse)研究报告显示,年全球新建和复制的信息量已经超过40ZB,是的12倍;而中国的数据量则会在超过8ZB,比增长22倍。数据量的飞速增长带来了大数据技术和服务市场的繁华发展。IDC亚太区(不含日本)最新有关大数据和分析(BDA)领域的市场研究表白,,%。该市场涵盖了存储、服务器、网络、软件以及服务市场。数据量的增长是一种非线性的增长速度。
据IDC分析报道,近来一年来,亚太区浮现了越来越广泛的大数据和分析领域的应用案例。在中国,从互联网公司,到电信、金融、政府这样的老式行业,都开始采用多种大数据和分析技术,开始了自己的大数据实践之旅;应用场景也在逐渐拓展,从构造化数据的分析,发展到半构造化、非构造化数据的分析,特别是社交媒体信息分析受到顾客的更多关注。顾客们开始评估以Hadoop、数据库一体机以及内存计算技术为代表的大数据有关新型技术。
最新调研成果显示,提高竞争优势,减少成本以及吸引新的客户是中国顾客对大数据项目最盼望的三大回报。目前既有的大数据项目重要集中在业务流程优化以及提高客户满意度方面的应用。IDC发现诸多顾客但愿大数据可觉得公司带来业务创新,并且开始使用高档分析的解决方案以管理复杂的数据环境。过去一年中顾客对社交数据的收集和分析应用的关注度增长明显。将来,地理位置信息分析将会增长迅速,这也会推动顾客对大数据安全和隐私管理的关注。在亚太区,澳大利亚和新加坡的顾客对大数据的有关投资重要在征询服务方面,更关注如何根据新的最佳实践需求设计和实行方案。中国和印度在大数据领域的硬件投资则非常明显,更倾向于数据中心有关的基本架构的投资。
在老式的数据分析与商业数据挖掘中,人们一般遵循二八原则。也就是任务20%的顾客提供了80%的价值,因此运用优势资源顾客对于少数顾客的服务。随着互联网的发展,越来越多的低价值顾客进入到商业体系中,这部分顾客成为商业公司竞争的目的。例如电商行业,大量顾客都是老式意义上的低价值客户,数据表白对于这部分顾客价值的挖掘可以变化二八原则,甚至可达到价值的几乎均匀分布。并且由于计算技术的发展,对于大数据的分析也成为了也许。
旅游行业开展大数据分析及应用的意义
旅游行业有行业广、规模大、移动性强的特点,因此更加依赖大数据。目前,旅游业也在“新常态”下迎来了升级的挑战和变革的机遇,新常态对于一般的经济部门是经济速度放慢、人均GDP增速减小,诸多老式行业在调节构造,但新常态对旅游行业却是速度加快的。旅游大数据的解决之道,在于整合国内多途径的大数据源,形成旅游大数据生态,为国内旅游业提供大数据解决方案,增进旅游业的转型升级。
数据挖掘与大数据分析科研平台建设的必要性
数据挖掘与大数据分析是以计算机基本为基本,以挖掘算法为核心,紧密面向行业应用的一门综合性学科。其重要技术波及概率论与数理记录、数据挖掘、算法与数据构造、计算机网络、并行计算等多种专业方向,因此该学科对于科研平台具有较高的专业规定。科研平台不仅要提供基本的编程环境,还要提供大数据的运算环境以及用于科学研究的实战大数据案例。这些素材的准备均需完整的科研平台作为支撑。
目前,在国内高校的专业设立上与数据挖掘与大数据分析有关的学科专业涉及:计算机科学与技术、信息管理与信息系统、记录学、经济、金融、贸易、生物信息、旅游以及公共卫生等。这些专业的在使用科研平台时的侧重点各不相似,使用人员层次水平也不相似,对算法的使用也不相似,因此,需要建设一种便利、操作简易、算法全面、可视化的大数据科研平台是非常有必要的。
数据挖掘与大数据分析科研平台总体规划
科研平台规划
科研平台建设的基本原则是科研为主,同步为教学实验提供部分计算资源及安全资源,系统在授权范畴内共享科研系统的计算资源,提高教学实验的真实性。
项目的总体架构如图1所示。

系统整体由千兆核心互换机作为核心节点,并以两个千兆接入互换机作为科研与实验环境的互换节点。科研环境由我司开发的商业Hadoop集群为基本,上层集成便于操作的大数据科研应用系统,集成10TB大数据案例集及可拖拽的数据算法和可视化算法。
科研平台功能规划
本科研平台针对数据挖掘有大数据分析研究内容,兼顾科研与教学的需求,既能满足科研工作中对大数据分析高性能平台规定也具有教学实验平台简朴易用的特点。
大数据资源规划
内置商业级数据资源,按常用科研分类规划数据资源,可以直接用于科学研究,具有数据资源授权管控功能。
大数据分析功能规划
建设以商业版Hadoop为核心的大数据分析平台,系统提供MapReduce以及Spark等大数据挖掘功能。系统具有完整的管理调度功能。
硬件资源功能规划
系统具有24个Intel XeonE5CPU计算能力,提供超过40TB的存储能力以及1T以上的内存,可满足1000任务共时计算内能,以便扩大。
数据挖掘与大数据分析科研平台建设方案
大数据科研平台设备架构

主节点和备份主节点
主节点负责整个分布式大数据平台的运营。主节点始终在内存中保存整个文献系统的目录构造,每个目录有哪些文献,每个文献有哪些分块及每个分块保存在哪个计算上,用于解决读写祈求。同步,主节点还负责将作业分解成子任务,并将这些子任务分派到各个计算节点上。备份主节点在主节点发生故障时承当主节点的多种任务,使得分布式大数据平台仍然可以正常运营。
管理节点
管理节点用于管理整个分布式大数据平台,可进行节点安装、配备、服务配备等,提供网页窗口界面提高了系统配备的可见度,并且减少了集群参数设立的复杂度。
接口节点
终端顾客通过接口节点连接和使用分布式大数据平台,提交任务并获得成果,并可以用其她数据分析工具做进一步解决,与外界进行数据交互(如连接关系型数据库)。
计算节点
分布式大数据平台涉及了多种计算节点。计算节点是系统中真正存储数据和做数据运算的节点。每个计算节点周期性地和主节点通信,还时不时和客户端代码以及其她计算节点通信。计算节点还维护一种开放的socket服务器,让客户端代码和其她计算节点通过它可以读写数据,这个服务器还会报告给主节点。
大数据科研平台底层架构
大数据科研平台低层架构以我司自主研发的商业版Hadoop为基本架构,涉及和大数据分析、数据挖掘、机器学****等功能模块,并以HDFS以及Hbase作为存储基本。

分布式持久化数据存储——HDFS
Hadoop分布式文献系统(HDFS)被设计成适合运营在通用硬件上的分布式文献系统。它和既有的分布式文献系统有诸多共同点。但同步,它和其她的分布式文献系统的区别也是很明显的。HDFS是一种高度容错性的系统,适合部署在便宜的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束,来实现流式读取文献系统数据的目的。
分布式实时数据库——HBase
HBase是一种分布式的、面向列的开源数据库,该技术来源于 FayChang所撰写的Google论文“Bigtable:一种构造化数据的分布式存储系统”。就像Bigtable运用了Google文献系统(所提供的分布式数据存储同样,HBase在Hadoop之上提供了类似于BigTable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库,它是一种适合于非构造化数据存储的数据库。另一种不同的是HBase基于列的而不是基于行的模式。
分布式资源调度管理——YARN
。YARN分层构造的本质是ResourceManager。这个实体控制整个集群并管理应用程序向基本计算资源的分派。ResourceManager 将各个资源部分(计算、内存、带宽等)精心安排给基本NodeManager(YARN的每节点代理)。ResourceManager还与 ApplicationMaster一起分派资源,与NodeManager 一起启动和监视它们的基本应用程序。在此上下文中,ApplicationMaster 承当了此前的TaskTracker的某些角色,ResourceManager承当了JobTracker的角色。
交互式SQL引擎——Hive
Hive是基于Hadoop的一种数据仓库工具,可以将构造化的数据文献映射为一张数据库表,并提供简朴的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运营。其长处是学****成本低,可以通过类SQL语句迅速实现简朴的MapReduce记录,不必开发专门的MapReduce应用,十分适合数据仓库的记录分析。
内存计算——Spark
Spark是UC BerkeleyAMP实验室所开源的类HadoopMapReduce的通用的并行计算框架。Spark拥有HadoopMapReduce所具有的长处;但不同于MapReduce的是Job中间输出成果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地合用于数据挖掘与机器学****等需要迭代的MapReduce算法。
科研平台的功能
科研项目管理
在科研平台中,科研计算是以计算项目来保存的,涉及了计算项目建立、计算项目维护、计算项目设计、计算项目运营和成果可视化等几种环节。从技术角度来说,计算项目中也涉及了算法组件、算法流程和数据集,一旦设计完后,就可用于计算,后期还可以调节算法和基于新的数据资源进行计算。
计算项目完毕后,可以训练出算法模型,在新的计算项目中使用已经训练好的模型进行数据的预测,形成一次训练多次使用的算法实现。
平台内置数据集
在科研工作中,如何获取到海量高质量大数据资源是最大的难点。目前在互联网等渠道是很难找到科研工作所需的数据源,特别是通过数据清洗和治理后的高质量数据。
数据超市平台运用如下模式,通过外部的资源,为高校的科研工作提供优质数据资源:
1)通过商务合伙的模式,直接与数据所有权拥有者进行灵活的商务沟通,获得科研的数据使用授权;
2)邀请行业内优质的第三方数据服务提供商入驻数据超市平台;
3)通过数据采集的方式,通过数据寻源、采集、治理、清洗后,引入具有公开版权的数据资源;
ﻩ所有引入数据都会通过数据工程师的严格审核,保证数据的清洁和质量,可以直接用于数据计算。
如平台内置的专利数据,涉及了国内近万各类商业数据,并且不断更新,可以直接用于旅游各方面的科学研究。有别区目前行业提供的数据库,数据超市直接提供了原始的数据,可以打通其她的行业数据,用于深层次的数据分析和经济预测。
科研数据上传
科研教师已有的数据可以上传到平台参与数据计算,教师可以在平台上建立数据表,然后把本地数据文献上传到数据表中。也可以维护外部的JDBC数据源,平台会把外部数据自动抽取到平台中进行计算和预测。
集成算法组件
为了便于科研教师迅速进行科研数据的加工、分析和计算,数据超市平台集成了50多种通用大数据算法组件,涉及回归算法、分类算法、聚类算法、关联规划算法、推荐算法、预测评估、数据预解决算法、机器学****等。所有的算法不必重新编程,只需要拖拽绘图完毕即可进行计算,如下图: