1 / 21
文档名称:

旅游大数据平台方案.doc

格式:doc   大小:1,228KB   页数:21页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

旅游大数据平台方案.doc

上传人:春天资料屋 2023/3/22 文件大小:1.20 MB

下载得到文件列表

旅游大数据平台方案.doc

文档介绍

文档介绍:该【旅游大数据平台方案 】是由【春天资料屋】上传分享,文档一共【21】页,该文档可以免费在线阅读,需要了解更多关于【旅游大数据平台方案 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。旅游大数据平台总结方案
旅游大数据平台总结方案
旅游大数据平台总结方案
旅游研究院大数据发掘与分析
科研平台建设方案
旅游大数据平台总结方案
旅游大数据平台总结方案
旅游大数据平台总结方案
旅游大数据平台总结方案
旅游大数据平台总结方案
旅游大数据平台总结方案
背景
数据发掘和大数据分析行业背景和发展趋向
挪动互联网、电子商务以及交际媒体的快速发展使得公司需要面对的数据量成指数增添。依据IDC《数字宇宙》(DigitalUniverse)研究报告显示,2020年全世界新建和复制的信息量已经超出40ZB,是2015年的12倍;而中国的数据量则会在2020年超出8ZB,比2015年增添22倍。数据量的飞快增添带来了大数据技术和服务市场的繁华发展。IDC亚太区(不含日本)最新对于大数据和分析(BDA)领域的市场研究表示,,%。该市场涵盖了储蓄、服务器、网络、软件以及服务市场。数据量的增添是一种非线性的增添快度。
据IDC分析报导,近来一年来,亚太区出现了愈来愈宽泛的大数据和分析领域的应用事例。在中国,从互联网公司,到电信、金融、政府这样的传统行业,都开始采纳各样大数据和分析技术,开始了自己的大数据实践之旅;应用途景也在渐渐拓展,从构造化数据的分析,发展到半构造化、非构造化数据的分析,特别是交际媒体信息分析遇到用户的更多关注。用户们开始评估以Hadoop、数据库一体机以及内存计算技术为代表的大数据有关新式技术。
最新调研结果显示,提高竞争优势,降低成本以及吸引新的客户是中国用户对大数据项目最希望的三大回报。目前现有的大数据项目主要集中在业务流程优化以及提高客户满意度方面的应用。IDC发现很多用户希望大数据能够为公司带来业务创新,并且开始使用高级分析的解决方案以管理复杂的数据环境。过去一年顶用户对交际数据的采集和分析应用的关注度增添显然。将来,地理地点信息分析将会增添快速,这也会推动用户对大数据安全和隐私管理的关注。在亚太区,澳大利亚和新加坡的用户对大数据的有关投资主要在咨询服务方面,更关注怎样依据新的最正确实践需求设计和实行方案。中国和印度在大数据领域的硬件投资则特别显然,更偏向于数据中心有关的基础架构的投资。
旅游大数据平台总结方案
旅游大数据平台总结方案
旅游大数据平台总结方案
在传统的数据分析与商业数据发掘中,人们平常依据二八原则。也就是任务20%的用户供给了80%的价值,所以利用优势资源用户对于少量用户的服务。跟着互联网的发展,愈来愈多的低价值用户进入到商业系统中,这部分用户成为商业公司竞争的目标。比方电商行业,大批顾客都是传统意义上的低价值客户,数据表示对于这部分用户价值的发掘能够改变二八原则,甚至可达到价值的几乎均匀分布。并且因为计算技术的发展,对于大数据的分析也成为了可能。
旅游行业张开大数据分析及应用的意义
旅游行业有行业广、规模大、挪动性强的特色,所以更为依靠大数据。目前,旅游业也在“新常态”下迎来了升级的挑战和改革的机遇,新常态对于一般的经济部门是经济速度放慢、人均GDP增速减小,很多传统行业在调整构造,但新常态对旅游行业倒是速度加快的。旅游大数据的解决之道,在于整合国内多门路的大数据源,形成旅游大数据生态,为国内旅游业供给大数据解决方案,促使旅游业的转型升级。
数据发掘与大数据分析科研平台建设的必需性
数据发掘与大数据分析是以计算机基础为基础,以发掘算法为核心,亲近面向行业应用的一门综合性学科。其主要技术波及概率论与数理统计、数据发掘、算法与数据构造、计算机网络、并行计算等多个专业方向,所以该学科对于科研平台拥有较高的专业要求。科研平台不只要供给基础的编程环境,还要供给大数据的运算环境以及用于科学研究的实战大数据事例。这些素材的准备均需圆满的科研平台作为支撑。
目前,在我国高校的专业设置上与数据发掘与大数据分析有关的学科专业包含:计算机科学与技术、信息管理与信息系统、统计学、经济、金融、贸易、生物信息、旅游以及公共卫生等。这些专业的在使用科研平台时的重视点各不同样,使用人员层次水平也不同样,对算法的使用也不同样,所以,需要建设一个便利、操作简单、算法全面、可视化的大数据科研平台是特别有必需的。
旅游大数据平台总结方案
旅游大数据平台总结方案
旅游大数据平台总结方案
数据发掘与大数据分析科研平台整体规划
科研平台规划
科研平台建设的基根源则是科研为主,同时为讲课实验供给部分计算资源及安全资源,系统在受权范围内共享科研系统的计算资源,提高讲课实验的真切性。
项目的整体架构如图1所示。
本科研平台针对数据发掘有大数据分析研究内容,兼备科研与讲课的需求,既能知足科研工作中对大数据分析高性能平台要求也拥有讲课实验平台简单易用的特色。
大数据资源规划
内置商业级数据资源,按常有科研分类规划数据资源,能够直接用于科学研究,拥有数据资源受权管控功能。
大数据分析功能规划
建设以商业版Hadoop为核心的大数据分析平台,系统供给MapReduce以及Spark等大数据发掘功能。系统拥有圆满的管理调动功能。
硬件资源功能规划
系统拥有24个IntelXeonE5CPU计算能力,供给超出40TB的储蓄能力以及1T以上的内存,可知足1000任务共时计算内能,方便扩大。
旅游大数据平台总结方案
旅游大数据平台总结方案
旅游大数据平台总结方案
数据发掘与大数据分析科研平台建设方案
大数据科研平台设施架构

主节点和备份主节点
主节点负责整个分布式大数据平台的运转。主节点素来在内存中保留整个文件系统的目录构造,每个目录有哪些文件,每个文件有哪些分块及每个分块保留在哪个计算上,用于办理读写恳求。同时,主节点还负责将作业分解成子任务,并将这些子任务分派到各个计算节点上。备份主节点在主节点发生故障时肩负主节点的各样任务,使得分布式大数据平台仍旧能够正常运转。
管理节点
管理节点用于管理整个分布式大数据平台,可进行节点安装、配置、服务配置等,供给网页窗口界面提高了系统配置的可见度,并且降低了集群参数设置的复杂度。
旅游大数据平台总结方案
旅游大数据平台总结方案
旅游大数据平台总结方案
接口节点
终端用户经过接口节点连结和使用分布式大数据平台,提交任务并获取结果,并能够用其余数据分析工具做进一步办理,与外界进行数据交互(如连结关系型数据库)。
计算节点
分布式大数据平台包含了多个计算节点。计算节点是系统中真切储蓄数据和做数据运算的节点。每个计算节点周期性地和主节点通讯,还不时时和客户端代码以及其余计算节点通讯。计算节点还保护一个开放的socket服务器,让客户端代码和其余计算节点经过它能够读写数据,这个服务器还会报告给主节点。
大数据科研平台基层架构
大数据科研平台低层架构以我司自主研发的商业版Hadoop为基础架构,包含和大数据分析、数据发掘、机器学****等功能模块,并以HDFS以及Hbase作为储蓄基础。

旅游大数据平台总结方案
旅游大数据平台总结方案
旅游大数据平台总结方案
分布式长久化数据储蓄——HDFS
Hadoop分布式文件系统(HDFS)被设计成合适运转在通用硬件上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其余的分布式文件系统的差异也是很显然的。HDFS是一个高度容错性的系统,合适部署在低价的机器上。HDFS能供给高吞吐量的数据接见,特别合适大规模数据集上的应用。HDFS放宽了一部分POSIX拘束,来实现流式读取文件系统数据的目的。
分布式及时数据库——HBase
HBase是一个分布式的、面向列的开源数据库,该技术根源于FayChang所撰写的Google论文“Bigtable:一个构造化数据的分布式储蓄系统”。就像Bigtable利用了Google文件系统(所供给的分布式数据储蓄同样,HBase在Hadoop之上供给了近似于BigTable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同样于一般的关系数据库,它是一个合适于非构造化数据储蓄的数据库。另一个不同样的是HBase鉴于列的而不是鉴于行的模式。
分布式资源调动管理——YARN
。YARN分层构造的实质是ResourceManager。这个实体控制整个集群并管理应用程序向基础计算资源的分派。ResourceManager将各个资源部分(计算、内存、带宽等)精心安排给基础NodeManager(YARN的每节点代理)。ResourceManager还与ApplicationMaster一同分派资源,与NodeManager一同启动和监察它们的基础应用程序。在此上下文中,ApplicationMaster肩负了从前的TaskTracker的一些角色,ResourceManager肩负了JobTracker的角色。
交互式SQL引擎——Hive
Hive是鉴于Hadoop的一个数据库房工具,能够将构造化的数据文件照耀为一张数据库表,并供给简单的SQL查问功能,能够将SQL语句变换为MapReduce任务进行运转。其长处是学****成本低,能够经过类SQL语句快速实现简单的MapReduce统计,不用开发专门的MapReduce应用,十分合适数据库房的统计分析。
旅游大数据平台总结方案
旅游大数据平台总结方案
旅游大数据平台总结方案
内存计算——Spark
Spark是UCBerkeleyAMP实验室所开源的类HadoopMapReduce的通用的并行计算框架。Spark拥有HadoopMapReduce所拥有的长处;但不同样于MapReduce的是Job中间输出结果能够保留在内存中,进而不再需要读写HDFS,所以Spark能更好地合用于数据发掘与机器学****等需要迭代的MapReduce算法。
科研平台的功能
科研项目管理
在科研平台中,科研计算是以计算项目来保留的,包含了计算项目建立、计算项目保护、计算项目设计、计算项目运转和结果可视化等几个环节。从技术角度来说,计算项目中也包含了算法组件、算法流程和数据集,一旦设计完后,即可用于计算,后期还能够调整算法和鉴于新的数据资源进行计算。
计算项目达成后,能够训练出算法模型,在新的计算项目中使用已经训练好的模型进行数据的展望,形成一次训练多次使用的算法实现。
平台内置数据集
在科研工作中,怎样获获取海量高质量大数据资源是最大的难点。目前在互联网等渠道是很难找到科研工作所需的数据源,特别是经过数据冲洗和治理后的高质量数据。
数据商场平台利用以下模式,经过外面的资源,为高校的科研工作供给优异数据资源:
1)经过商务合作的模式,直接与数据所有权拥有者进行灵巧的商务交流,获取科研的数据使用受权;
2)邀请行业内优异的第三方数据服务供给商入驻数据商场平台;
3)经过数据采集的方式,经过数据寻源、采集、治理、冲洗后,引入拥有公然版权的数据资源;
旅游大数据平台总结方案
旅游大数据平台总结方案
旅游大数据平台总结方案
所有引入数据都会经过数据工程师的严格审查,保证数据的洁净和质量,能够直接用于数据计算。
如平台内置的专利数据,包含了国内近2000万各样商业数据,并且不停更新,能够直接用于旅游各方面的科学研究。有别区目前行业供给的数据库,数据商场直接供给了原始的数据,能够打通其余的行业数据,用于深层次的数据分析和经济展望。
科研数据上传
科研老师已有的数据能够上传到平台参加数据计算,老师能够在平台上建立数据表,此后把当地数据文件上传到数据表中。也能够保护外面的JDBC数据源,平台会把外面数据自动抽取到平台中进行计算和展望。
集成算法组件
为了便于科研老师快速进行科研数据的加工、分析和计算,数据商场平台集成了50多种通用大数据算法组件,包含回归算法、分类算法、聚类算法、关系规划算法、介绍算法、展望评估、数据预办理算法、机器学****等。所有的算法不用从头编程,只要要拖拽画图达成即可进行计算,以以下列图: