文档介绍:: .
S 为国际上标准的数理统计分
析软件;进而,SAS 的丰富数据采集、数据管理、数据分析和信息展现的能力,
又使之成为决策支持的最好的工具;近几年,SAS 又推出了套装的 SAS/Enterprise
Miner 这一企业级的数据处理分析和决策支持软件包。SAS 系统的软件和这些软
件运用的无数成功经验,一定能帮你从企业堆积如“山”的数据中“挖掘”出隐藏着
的规律性,以支持你正确的经营决策。
SAS 的数据挖掘软件集成了一系列有效的技术手段全面地支持你的工作。首
先是支持你的数据重组工作。在你的企业或组织中或许已经有了成功的各种业务
系统,其中的数据体系对应着一项项事务处理和一个又一个控制环节,它们定能
完美的支持其原有的工作。但当你从企业级的角度去审视,并想进一步分析处理
时,你会感到这些数据过于分散,数量越来越大,并难以整合。美国数据挖掘技
术开拓者 Gregory Piatetsky-Shapiro 曾戏言说:“原来曾希望计算机系统成为我们
智慧的源泉,但从中涌出的却是洪水般的数据!”其实不必埋怨数据太多,也不
必埋怨原来的数据结构不好,它们是适应原有工作任务的,只是不适合你现在的
3要求而已。要支持你的企业级的决策,就是需要“洪水般的数据量”,但是要面向
企业级的工作任务对其进行重组。数据仓库系统支持你进行数据重组,并以全新
的数据、信息的结构形式支持你的全新的工作方式。这在前面五篇连载文章中已
作了详尽的介绍。建立数据仓库,这是进一步能有成效的进行数据挖掘的基础工
作。
要看清企业或组织运作的状况,第一步就是能查询到反映你所关心事情的相
应数据、信息。以 SAS 的多维数据库产品 MDDB 构造的数据仓库从物理结构上
保证了你查询的迅速、方便。 在提出在线分析处理 OLAP 概念时,多
维数据结构是实现其任务的第一项要求。一些简单的决策支持所需要的就是有针
对性的数据。在数据重组后的数据仓库中还建立了所谓数据市场(Data Marts),
它就可以更针对决策支持的需要而设计,其中还可综合不同层次的汇总数据和跨
数据仓库主题的数据。
SAS 软件研究所对数据挖掘所下的定义是:数据挖掘是按照既定的业务目标,
对大量的企业数据进行探索、揭示隐藏其中的规律性并进一步将之模型化的先进、
有效的方法。
对数据的探索、挖掘首先要有一个明确的业务目标。一组生产数据可作生产
能力的分析;可作生产成本核算的分析;亦可作影响产品质量诸因素的分析。目
标决定了此后数据挖掘过程的各种运作,并导引了运作的方向。虽然说数据挖掘
的业务目标在过程中不是不可修正的,也应当在工作进程中不断的进一步明确化,
但其基本原则内容要保持稳定不变,否则数据挖掘工作是难以有效的进行的。
这里所指的大量企业数据最好是按照数据仓库的概念重组过的,在数据仓库
中的数据、信息才能最有效的支持数据挖掘。假如所取用的数据并不足以反映企
业的真实情况,当然也不可能挖掘出有用的规律。数据仓库的数据重组,首先是
从企业正在运行的计算机系统中完整地将数据取出来。所谓完整,就是决策支持
目标所涉及的各个环节不能有遗漏;其次各个环节的数据要按一定的规则有机、
准确地衔接起来。从决策支持的主题来看,这重新组织过的数据,以极易取用的
数据结构方式,全面的描述了该主题。
有了反映业务主题全貌的数据后,在进行数据的分析、探索时,对于不同的
人,可能会采用不同的方式方法。Gartner Group 在评价数据挖掘工具时,也特
4别提到了面对各种不同类型人员的可伸缩性和完整性。SAS 支持各层次用户:
业务水平和数学水平可能比较一般,对这样的用户提供方便的数据查询
是非常重要的。实际上早期的决策支持主要就是数据查询的支持。可能
也要做一些简单的数理统计分析。若统计分析的要求是较明确的,可以
事先做好,向他们提供统计分析的结果。这可做成 SAS 数据仓库中的信
息市场(Infor