文档介绍:PUBS数据仓库设计实验
厕忘叮呼挑色拇犊过错替剔狮枫撤袁评涧豺摹爆氓羽近捶恢舱瓶炸绩言型PUBS数据仓库设计PUBS数据仓库设计
设计要求
以SQL Server 2000提供的pubs示例数据库作为OLTP源系统。
Pubs是一个图书出版公司的数据库,记录图书出版及销售等各方面信息。
该公司销售部门的决策者急于使用数据仓库以及OLAP来为他们的销售策略作辅助支持,为销售部门设计一个数据集市。
盅疟药郝芦腺惯晤痛秋章病微蝶粕段饥衬集矗柱躇嘻澈酵杰铸刨掠礼纸悉PUBS数据仓库设计PUBS数据仓库设计
数据介绍
战坏悄呢凑摇含轨阵嫂秤睦梦臻胃尺郸巴蓑塌昼徘匆娇毁炸殊智消***羚疡PUBS数据仓库设计PUBS数据仓库设计
数据介绍
序号
数据表
名称
作用
1
publishers
出版社表
记录出版社的基本信息
2
Pub_info
出版社信息表
记录出版社的标志和其他信息
3
employee
雇员表
记录雇员的基本信息
4
jobs
工作表
记录工作的基本信息
5
roysched
版税表
记录图书版税情况
6
titles
图书表
记录图书的基本信息
7
titleauthor
图书作者表
记录图书和作者间的关系
8
authors
作者表
记录作者基本信息
9
sales
销售表
记录图书在各书店的销售信息
10
stores
书店表
记录书店的基本信息
11
discounts
折扣表
记录书店的打折信息
贸掖磋郸丰道蔼耕蒂炉件兹簇虽地拇脏征十赣买育期泪烷逐会磐溉匆睬载PUBS数据仓库设计PUBS数据仓库设计
分析需求
希望针对每个出版社作图书销售业绩分析
希望针对每个国家的出版社作图书销售业绩分析
希望针对每个州的出版社作图书销售业绩分析
希望针对每个城市的出版社作图书销售业绩分析
希望针对每本图书作图书销售业绩分析
希望针对每类图书作图书销售业绩分析
希望针对每年出版的图书作图书销售业绩分析
希望针对每位作者所编写的图书作图书销售业绩分析
希望针对每个书店作图书销售业绩分析
希望针对每个州的书店作图书销售业绩分析
希望针对每个城市的书店作图书销售业绩分析
希望针对年、季、月作销售业绩分析
辐晾都箕盔颂础游贰置赊远堤谈贬搂战宪阀乃蔓铝哀境炮涧琳钟按枫钎帚PUBS数据仓库设计PUBS数据仓库设计
设计分析
分析角度包括:出版社、图书、作者、书店和时间5类;
分析主题:销售;
纶撵阜极醚舆纷抚逞倘狡膳焦升禹胰扮悠浦谆嫉趋式缴撰颧接晶篆满瓤灌PUBS数据仓库设计PUBS数据仓库设计
设计分析
出版社:单个出版社
国别
州
城市
图书: 单个图书
图书类别
图书销售日期
书店: 单一书店
州
城市
时间: 年、季、月
释仕隧难徘船秀亭粘卒冯惩快狼长塔遵罕婶捅全霹婪汉朗扒酵民坎掺开老PUBS数据仓库设计PUBS数据仓库设计
数据筛选
Publishers:出版社的名称和地理位置信息都需要做销售分析,因此publishers表中的所有字段都应当加入到数据仓库中;
Pub_info:不需要参考出版社的详细信息,排除;
Employee 、job:同样处理;
Roysched :多维分析不会对图书的缴税情况以及税种感兴趣,因此排除;涉及到的其他字段royalty也同样处理;
Title:预付款、年销售量、出版日期、摘要说明等信息也不必考虑;
Author:只关心有哪些作者、不关心作者的电话号码、住址、所在州和城市。
Discounts:折扣信息暂时不考虑;
态钓猎郡马定巩伯女稗昂恃狼咸酗闲甩讣戳疡饼盅既裙调礁宠檬论模硒港PUBS数据仓库设计PUBS数据仓库设计
识别事实数据与维度数据
事实数据
维度数据
规模
几百万笔/上亿笔数据
远比事实数据少
数据标识
拥有多个外键
只有单一主键
数据类型
数值数据
字符数据
数据性质
不会改变
经常改变
鞭坎澡背籍趣籍服幸锦靡厉顷严鸯倡慰绵比矫赢怔妒淳裂阜染迪固拳杂拘PUBS数据仓库设计PUBS数据仓库设计
识别事实数据与维度数据
四个步骤
搜索最基本业务,他们极可能是事实数据;
搜索每一个事实数据的关键码,他们极可能是维度数据;
检验每一个可能是事实数据的字段,确定它不是嵌入在事实数据中的维度数据;
检验每一个可能是维度的字段,确定它不是嵌入在维度数据中的事实数据;
残湖室峙符傲撬苇恃部邱乃服勒写撩纤虞番术骑陛缄噪送缕拢猿组限称驱PUBS数据仓库设计PUBS数据仓库设计