1 / 4
文档名称:

数据挖掘3.doc

格式:doc   页数:4页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据挖掘3.doc

上传人:xxj16588 2016/6/5 文件大小:0 KB

下载得到文件列表

数据挖掘3.doc

文档介绍

文档介绍:1, 数据挖掘过程从商业的角度看,数据挖掘过程可分为三个阶段: (一) 数据收集: 数据收集容易且不引人注意, 但却是数据挖掘的基础。知识是从海量数据里提取出来的, 因此要挖掘知识必须得收集一定量的数据。收集到的原始数据一般存在缺失值、错误值等问题,不能直接用作知识提取的数据源,需要进行数据预处理。(二) 知识提取:基于经过预处理的数据,使用各种数据挖掘方法( 如分类、聚类、关联分析等) 进行知识提取,这是数据挖掘的核心部分。(三) 知识辅助决策: 数据挖掘技术已被广泛地应用于各领域, 其提取出来的知识可以很好地辅助决策者做出良好的决策。 2 ,数据挖掘方法(1) 分类(Classification) 分析分类分析, 通过分析示例数据库中的数据为每个类别做出准确的描述或建立分析模型或挖掘出分类规则,然后用此分类规则对其它数据库中的记录进行分类。分类分析广泛应用于用户行为分析( 受众分析) 、风险分析、生物科学等。(2) 聚类(Clustering) 分析“物以类聚, 人以群分”。聚类分析技术试图找出数据集中的共性和差异, 并将具有共性的对象聚合在相应的类中。聚类可以帮助决定哪些组合更有意义,广泛应用于客户细分、定向营销、信息检索等等。(3) 回归(Regression ) 分析回归分析是确定两种或两种以上变数间相互依赖的定量关系的一种分析方法。其可应用于风险分析、作文自动评分等领域。(4) 关联(Association) 分析关联分析, 发现特征之间的相互依赖关系, 通常是从给定的数据集中发现频繁出现的模式知识( 又称为关联规则) 。关联分析广泛用于市场营销、事务分析等领域。(5) 离群点(Outlier) 检测离群点检测就是发现与众不同的数据。可应用于商业欺诈行为的自动检测,网络入侵检测,金融欺诈检测,反洗钱,犯罪嫌疑人调查,海关、税务稽查等。(6) 演化(Evolving) 分析演化分析就是对随时间变化的数据对象的变化规律和趋势进行建模描述。如商品销售的周期( 季节) 性分析。(7) 序列模式(Sequential Pattern) 挖掘序列模式挖掘是指分析数据间的前后序列关系, 包括相似模式发现、周期模式发现等。其应用领域包括客户购买行为模式预测、 Web 访问模式预测、疾病诊断、网络入侵检测等。分类方法: 决策树分类方法贝叶斯分类方法 K- 最近邻分类方法神经网络分类方法 3 ,银行客户细分工作步骤: 4 ,离群点和噪声的区别