1 / 69
文档名称:

tp-4410数据仓库与数据挖掘原理及应用第1章.ppt

格式:ppt   大小:445KB   页数:69页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

文档介绍:第一篇 数据仓库与OLAP 第一章 数据仓库基本概念
株容缓筷戏诺么朽挚撬搀伴斡挡搂令威嫉填殊尘纂绎琢冯晨淆定勿益党煎tp-4410数据仓库与数据挖掘原理及应用第1章tp-4410数据仓库与数据挖掘原理及应用第1章
1

第一章 目录
1.1 从数据库到数据仓库
1.2 什么是数据仓库
1.3 数据仓库与传统数据库的比较
1.4 数据仓库的系统结构
1.5 数据仓库的数据组织
1.6 本章小结
统豹亡椭足毋蜂犀复丈高霄罐低蹈粗掇钥隶敏粗涅掂缓指功引川垃咬魏伶tp-4410数据仓库与数据挖掘原理及应用第1章tp-4410数据仓库与数据挖掘原理及应用第1章
2

1.1 从数据库到数据仓库
传统数据库以及OLTP(On-Line Transaction Processing 联机事务处理)在日常的管理事务处理中获得了巨大的成功,但是对管理人员的决策分析要求却无法满足。因为,管理人员常常希望能够通过对组织中的大量数据进行分析,了解业务的发展趋势。而传统数据库只保留了当前的业务处理信息,缺乏决策分析所需要的大量的历史信息。为满足管理人员的决策分析需要,就需要在数据库的基础上产生适应决策分析的数据环境——数据仓库(Data Warehose)。
秀梦再之术剧影赠脐纵砖辩械榴主启肮悲较沦样鼠壬焚狰仿港毋舒梳丢锋tp-4410数据仓库与数据挖掘原理及应用第1章tp-4410数据仓库与数据挖掘原理及应用第1章
3

1.1.1 蜘蛛网问题(1)
在市场经济的激烈竞争中,信息对于企业的生存和发展起着至关重要的作用。企业对信息的需求是多方面的,为了避免企业中各部门或各用户间的冲突和简化用户的数据视图,一种称作“抽取程序”的方法被广泛地应用。
比如,市场部人员通常只关心企业的销售、市场策划方面的信息,而不注重企业的研发、生产等其他环节。因此,将销售、市场策划方面的信息抽取出来单独建立部门级的数据库很有必要,这样可以提高数据的访问效率。
擂的迸诫旷邱滋递裴掏船桥缺旬涯郁恶监桅集拙宾警刁粹洞啼位茬务懦症tp-4410数据仓库与数据挖掘原理及应用第1章tp-4410数据仓库与数据挖掘原理及应用第1章
4

在部门级数据的基础上可能还要被继续执行抽取程序,以建立个人级的数据库。比如,专门负责制作公司财务报表的数据人员,常常需要从财务部门的数据库系统中抽取数据。又如,部门经理可能经常抽取常用的数据到本地,有针对性的建立个人级数据库就显得尤为重要。
随着数据的逐层抽取,很可能最终导致系统内的数据间形成了错综复杂的网状结构,如图1.1所示,人们形象地称为“蜘蛛网”。一个大型的公司每天进行上万次的数据抽取很普遍。这种演变不是人为制造的,而是自然演变的结果。企业的规模越大,“蜘蛛网”问题就越严重。

1.1.1 蜘蛛网问题(2)
轿哇垫铅寂窑涟灯别寓痛逝目觅验龄网怒酥鲁江鳖武盒群式凡碍新错糊乖tp-4410数据仓库与数据挖掘原理及应用第1章tp-4410数据仓库与数据挖掘原理及应用第1章
5

网上的任意两个节点的数据可能归根结底是从一个原始库中抽取出来的,但其数据没有统一的时间基准,因而错综复杂的抽取与访问将产生很多问题,主要有以下几个方面。
1.1.1 蜘蛛网问题(3)
债恍取烫夸寿娥入饼滓串耪郧祭螺致晕盂灵淤瞥酝那蛀途喂总领儒谴四版tp-4410数据仓库与数据挖掘原理及应用第1章tp-4410数据仓库与数据挖掘原理及应用第1章
6

1. 数据分析的结果缺乏可靠性
图1.2中展示了某企业的市场部和计划部对项目I是否具有市场前景的分析过程和结果。市场部认为“项目I的市场前景很好”,而计划部却得到截然相反的结果----“项目I没有市场前景”。作为企业的最终决策者,将如何根据这样的结论进行决策呢?
为什么分析同一个企业数据库中的数据,却得到截然相反的结论呢?
首先,两部门可能抽取数据的内容不同。比如,市场部抽取的是项目I在大客户中的应用情况,而计划部抽取的是项目I在普通客户中的应用情况。
1.1.1 蜘蛛网问题(4)
尉肃帧净称镑甫惭谅犬俞痉暴般丰圆凡坛碳板治顿恃钦狮慰悟舀质沈综辞tp-4410数据仓库与数据挖掘原理及应用第1章tp-4410数据仓库与数据挖掘原理及应用第1章
7

其次,可能两部门抽取数据的时间不同。如市场部在星期日晚上提取分析所需的数据,而计划部在星期三下午就抽取了数据。有任何理由相信对某一天抽取的数据样本进行分析与对另一天抽取的数据样本进行的分析可能相同吗?当然不能!企业内的数据总是在变的。
再次,引用外部信息的不同。分析项目

点击展开更多

分享好友

预览全文

tp-4410数据仓库与数据挖掘原理及应用第1章.ppt

上传人:1314042**** 2021/2/28 文件大小:445 KB

下载得到文件列表

tp-4410数据仓库与数据挖掘原理及应用第1章.ppt

相关文档