文档介绍:数据仓库基础日程日程:技术知识基本概念体系结构设计方法技术实现背景:数据处理的发展历程文件方式数据与程序混杂管理复杂并发问题一致性问题数据库OLTP处理交易统计类需求数据源繁杂传统数据仓库OLAP处理分析性能问题非结构化数据实时说明不是“替代”关系本文档重点介绍“传统数据仓库”……OLTP与OLAPOLTP处理交易流程运转OLAP分析数据数据记录、观察数据仓库定义Datawarehouseisasubjectoriented,integrated,non-volatileandtimevariantcollectionofdatainsupportofmanagement’sdecision.——[Inmon,1996]数据仓库是一个面向主题的、集成的、非易失的且随时间变化的数据集合,用来支持管理人员的决策。数据仓库其他定义Datawarehouseisasetofmethods,techniques,andtoolsthatmaybeleveragedtogethertoproduceavehiclethatdeliversdatatoend-usersonanintegratedplatform.——[Ladley,1997]……是一组方法、技术、工具……Datawarehouseisaprocessofcrating,maintaining,andusingadecision-supportinfrastructure.——Appleton,1995][Haley,1997][Gardner1998]……是一个过程……四个特征[Inmon,1996]面向主题主题是在较高层次上对数据抽象面向主题的数据组织分为两步骤确定主题确定每个主题所包含的数据内容每个主题由一组关系表实现,相关表通过公共的键码关联(如:客户ID)主题内数据可以存储在不同介质上(综合级,细节级,多粒度)集成从原有的分散数据库数据中抽取来的,需要消除数据表述的不一致性(数据的清洗)代码、粒度、结构非易失的(不可更改的)批处理增加,仓库已经存在的数据不会改变随时间变化键码都包含时间项,以标明数据的历史时期面向主题集成