文档介绍:SAP系统大数据快速输出
“信息结构”+“数据压缩”应用
强晟
2015-01-31
Page2
海量数据
终端零售数据
>1亿/年
表名
数据量
LIPS
188,055,377
MSEG
589,961,021
VBRP
141,244,573
BSEG
675,083,578
MARD
88,121,876
SAP IS-R
零售行业解决方案
2011年上线
至今
Page3
多维查询
组织
工厂
分公司
城市
店铺
产品
款式
性别
单品
时间
年度
季节
节庆
营销
地点类别
店铺类型
是否自收银
是否新渠道
品牌
大类
小类
Page4
效率的困惑
大数据
多维度
数据输出怎么办?
1秒
10秒
1分钟,10分钟
BI的适用范围:宏观、非实时
业务用户要求:明细、实时
Page5
解决方案
业务系统大数据输出
信息结构:
解决实时汇总问题
簇数据库:
解决高效读取问题
M+N筛选算法:
解决快速展现问题
Info
Structure
Data
Cluster
M+N
Algorithm
SAP为解决OLTP系统数据整合和实时展现的需要,特别在系统中植入了“信息结构”技术。
实现SAP业务数据的实时存储和简单整合。
依据事先确定的数据整合逻辑和数据汇集粒度。
Page6
信息结构-实现原理
创建步骤:
保存业务数据时,同步按预设指标汇总至信息结构表。
Page7
信息结构-运行逻辑
表头
行项目
原始业务数据
信息结构指标库
∑
数据库
优势:
实时性好
自定义指标粒度
数据存储在业务系统
注意:
使用信息结构会降低业务数据保存时的性能,须适度使用
信息结构表数据量过大时,查询速度同样会变慢,将它转换为簇数据库存储,加速读取;
关键字为逻辑条件,数据簇为逻辑数据,则:数据逻辑与物理存储保存一致;
下图:簇数据库;右图:数据簇
Page8
簇数据库-实现原理
历史数据合并压缩存储,读取时批量取出
Page9
簇数据库-运行逻辑
时间
组织
产品
营销
数据
1
2
3
4
5
6
7
8
信息结构数据
期间
组织
1
2
3
4
5
6
7
8
…
ABAP运行时环境
时间
组织
产品
营销
数据
1
2
3
Page10
M+N筛选算法-业务目标
下图为查询目标(示例)
使用簇技术后,提升了数据库读取速度,降低了数据库负荷,把数据处理压力全部放在应用程序。
两次循环的时间复杂度:O(M×N÷2)
循环加二分法读取的时间复杂度:
O(N×log2N)+O(M×log2N)