1 / 19
文档名称:

数据库、数据仓库、大数据平台、数据中台、数据湖对比分析.docx

格式:docx   大小:237KB   页数:19页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据库、数据仓库、大数据平台、数据中台、数据湖对比分析.docx

上传人:niupai21 2022/6/17 文件大小:237 KB

下载得到文件列表

数据库、数据仓库、大数据平台、数据中台、数据湖对比分析.docx

文档介绍

文档介绍:数据库、数据 仓库、大数据平台、数据中台、数据湖 对比分析
一、概况
层出不穷的新技术、新概念、新应用往往会对初学者造成很大的困扰,有时候很难理清楚它们之间的区别与联系。本文将以数据
研发相关领域为例,对比分析我们工作中高频出现的几个正确性。所谓CAP理论,是指对于一个分布式计算系统来说,不可能 同时满足以下三点:
・一致性(Consistency)等同于所有节点访问同一份最新的数据副本。即任何一个读操作总是能够读到之前完成的写操作的结果,也 就是说,在分布式环境中,不同节点访问的数据是一致的。
・可用性(Availability)每次请求都能获取到非错的响应——但是不保证获取的数据为最新数据。即快速获取数据,可以在确定的时 间内返回操作结果。
・分区容错性(Partition tolerance)以实际效果而言,分区相当于对通信的时限要求。系统如果不能在时限内达成数据一致性,就意 味着发生了分区的情况,必须就当前操作在C和A之间做出选择。即指当出现网络分区时係统中的一部分节点无法与其他的节 点进行通信),分离的系统也能够正常运行,即可靠性。
一个分布式的系统不可能同时满足一致性、可用性和分区容错性,最多同时满足两个。当处理CAP的问题时,可以有以下几个选择:
・满足CA,不满足P。将所有与事务相关的内容都放在同一个机器上,这样会影响系统的可扩展性。传统的关系型数据库。如 MySQL、SQL Server、PostgresSQL等都采用了此种设计原则。
・满足AP,不满足Co不满足一致性(C),即允许系统返回不一致的数据。其实,,更加关注的是服务是否可 用,而不是一致性。比如你发了一篇博客或者写一篇微博,你的一部分朋友立马看到了这篇文章或者微博,另一部分朋友却要 等一段时间之后才能刷出这篇文章或者微博。虽然有延时,但是对于一个娱乐性质的Web ,这几分钟的延时并不 重要,不会影响用户体验。相反,当发布一篇文章或微博时,不能够立即发布(不满足可用性),用户对此肯定不爽。所以呢, ,可用性和分区容错性的优先级要高于数据一致性,当然,并没有完全放弃一致性,而是最终的一致 性(有延时)。如Dynamo、Cassandra、CouchDB等NoSQL数据库采用了此原则。
・满足CP,不满足A。强调一致性性(C)和分区容错性(P),放弃可用性性(A)。当出现网络分区时,受影响的服务需要等待数据一致, 在等待期间无法对外提供服务。如Neo4J、HBase、MongoDB、Redis等采用了此种设计原则。
四、数据仓库仓库
什么是数据仓库?
数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变 化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support) o
・ 面向主题的:根据使用者的需求,将来自不同数据源的数据围绕着各种主题进行分类整合。
・集成的:来自各种数据源的数据按照统一的标准集成于数据仓库中。
・相对稳定的:数据仓库中的数据是一系列的历史快照,不允许修改或删除,只涉及数据查询。
・反映历史变化的:数据仓库会定期接收新的集成数据,从而反映出最新的数据变化。
数据库与数据仓库有什么区别
严格来讲数据仓库不是一门技术,也不是一个产品。像前文提到的关系型数据库M ySQL和Oracle都属于一种产品。那么是什么数据仓 库的,见名知意,其实就是存储数据的仓库,数据的来源有很多种,可以统一在数据仓库中进行汇合,然后通过统一的建模,加工成 服务与数据分析的数据模型,辅助企业分析决策。
那么,数据仓库该怎么构建呢,目前使用Hive构建数据仓库的比较多,本文不会过多分析这些大数据技术。总之一句话,数据仓库涉 及数据建模,数据抽取ETL,数据可视化等一系列的流程,是一种数据解决方案,通常需要多种技术进行组合使用。
数据仓库的本质是OLAP,即是做在线分析处理,这是与数据库的本质区别。还有一点既然是数据仓库,肯定是要加工数据,那么加 工数据肯定耗时间,所以加工数据在实际的应用中又分为批处理和实时处理。
数据库是为了解决OLTP而存在的,而数据仓库是为了分析数据而存在的。数据库的数据是数据仓库的数据源,即将数据库的数据加 载至数据仓库,所以说,数据仓库不生产数据,只做数据的搬运工。
还有一点就是,数据仓库并不是必须的,但是对于一个业务系统而言,数据库是必须的。只有在业务稳定运转的情况下,才会去构建 企业级数据仓库,通过数据分析,数据挖掘来辅助业务决策,实现锦上添花。
数据

最近更新

2025年四川体育职业学院单招职业倾向性测试题.. 63页

2025年的安全承诺书合集5篇 7页

2025年四川信息职业技术学院单招职业倾向性测.. 61页

2025年四川化工职业技术学院单招职业倾向性测.. 60页

输电线路电磁环境影响分析与对策 3页

2025年四川卫生康复职业学院单招职业适应性测.. 62页

2025年内蒙古自治区兴安盟公务员省考公共基础.. 14页

2025年疫情日记 3页

2025年留守儿童关爱工作总结 3页

2025年四川应用技术职业学院单招职业技能测试.. 60页

2025年四川托普信息技术职业学院单招职业技能.. 63页

企业合伙人合同范本 6页

2025年六年级数学下册分数应用题教案(5篇)完整.. 24页

2025年四川文化艺术学院单招职业技能测试题库.. 62页

资金集中管理——结算中心模式探讨——以某集.. 3页

企业单位借款合同参考范本 5页

2025年四川水利职业技术学院单招职业倾向性测.. 60页

2025年六年级下册人教版小学数学第二单元百分.. 8页

2025年四川汽车职业技术学院单招职业适应性测.. 61页

2025年电气工作计划锦集五篇 8页

2025年三年级数学教师工作计划模板五篇 20页

2025年单招适应性测试题库a4版 63页

2025年农民工工资专用账户三方协议 4页

高空作业考试题库 72页

三味蒺藜散在免疫调节中的应用研究 24页

6S检查表【标准模板】 10页

soul蒙面闲聊问题合集 1页

API 5B 16版 2018 螺纹检验 讲解 63页

讲道学课程讲义 34页

建筑基桩检测技术规范(jgj106-2016 ) 37页