文档介绍:第七讲 CRM中的数据挖掘主讲:尹秋菊******@bit.
1
内容
数据挖掘的定义
数据挖掘的功能
数据挖掘的流程
数据挖掘在CRM中的应用
两个常见数据挖掘工具软件
数据挖掘软件在CRM中的应用示例
2
数据挖掘的定义---技术角度
数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
这个定义包括以下几层含义:
数据源必须是真实的、大量的、含噪声的;
发现的是用户感兴趣的知识;
发现的知识要可接受、可理解、可运用;
并不要求发现放之四海皆准的知识,仅支持特定的发现问题。
3
数据挖掘的定义----商业角度
按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。
4
OLAP与数据挖掘的区别
OLAP是一个演绎推理的过程,而数据挖掘是一个归纳的过程。
OLAP
OLAP分析师是建立一系列的假设,然后通过OLAP来证实或推翻这些假设来最终得到自己的结论,因此说,OLAP分析过程在本质上是一个演绎推理的过程。
但是如果分析的变量达到几十或上百个,那么再用OLAP手动分析验证这些假设将是一件非常困难和痛苦的事情。
5
数据挖掘
与OLAP不同的地方是:数据挖掘不是用于验证某假定的模式(模型)的正确性,而是在数据库中自己寻找模型,因此说它在本质上是一个归纳的过程。
比如,一个用数据挖掘工具的分析师想找到引起贷款拖欠的风险因素。数据挖掘工具可能帮他找到高负债和低收入是引起这个问题的因素,甚至还可能发现一些分析师从来没有想过或试过的其他因素,比如年龄。
6
也就是说,数据挖掘与联机分析处理的本质区别是,数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先前未知,有效和可实用三个特征。
先前未知的信息是指该信息是预先未曾预料到的,既数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。
因此,数据挖掘得到的规则可以作为OLAP工具的输入,反过来OLAP工具分析得到的答案又检验规则的有效性、可信度,即OLAP工具分析得到的特征归纳还可以用来完善规则。
7
数据挖掘的功能(任务)
数据挖掘主要有以下功能:
总结规则挖掘
平均值/极小值/极大值、总和、百分比等
关联规则挖掘
分类规则挖掘
群集规则挖掘(聚类分析)
自动预测趋势和行为 
概念描述
偏差检测
8
关联规则挖掘
若两个或多个变量的取值之间存在某种规律性,就被称为关联。
关联可分为简单关联、时序关联、因果关联。
关联分析的目的是找出数据库中隐藏的关联网。
关联分析发现关联规则,这些规则展示属性值频繁地在给定数据集中一起出现的条件。
9
关联规则属性的四个参数:
可信度(confidence):物品集X出现的前提下,Y出现的概率
支持度(support):物品集X、Y同时出现的概率
期望可信度(expected confidence):物品集Y出现的概率
作用度(lift):可信度对期望可信度的比值。
作用度描述物品集X的出现对物品集Y的出现有多大作用的影响。因为Y在所有事务中出现的概率是期望可信度;而Y在有X出现的事务中出现的概率是可信度,通过可信度对期望可信度的比值反映了在加入“X出现”的这个条件后,Y的出现概率发生了多大变化
10