文档介绍:数据挖掘概念与技术
2018/1/25
1
数据挖掘:概念与技术
第1章引言
2018/1/25
2
数据挖掘:概念与技术
第一章引论
动机:为什么要数据挖掘?
什么是数据挖掘?
数据挖掘:在什么数据上进行?
数据挖掘功能
所有的模式都是有趣的吗?
数据挖掘系统分类
数据挖掘的主要问题
2018/1/25
3
数据挖掘:概念与技术
动机: 需要是发明之母
数据爆炸问题
自动的数据收集工具和成熟的数据库技术导致大量数据存放在数据库, 数据仓库, 和其它信息存储中
我们正被数据淹没,但却缺乏知识
解决办法: 数据仓库与数据挖掘
数据仓库与联机分析处理(OLAP)
从大型数据库的数据中提取有趣的知识(规则, 规律性, 模式, 限制等)
2018/1/25
4
数据挖掘:概念与技术
数据处理技术的演进
1960s:
数据收集, 数据库创建, IMS 和网状 DBMS
1970s:
关系数据库模型, 关系 DBMS 实现
1980s:
RDBMS, 先进的数据模型(扩充关系的, OO, 演绎的, 等.) 和面向应用的 DBMS (空间的, 科学的, 工程的, 等.)
1990s—2000s:
数据挖掘和数据仓库, 多媒体数据库, 和 Web 数据库
2018/1/25
5
数据挖掘:概念与技术
什么是数据挖掘?
数据挖掘(数据库中知识发现):
从大型数据库中提取有趣的(非平凡的, 蕴涵的, 先前未知的并且是潜在有用的) 信息或模式
其它叫法和“inside stories”:
数据挖掘: 用词不当?
数据库中知识发现(挖掘) (Knowledge discovery in databases, KDD), 知识提取(knowledge extraction), 数据/模式分析(data/pattern analysis), 数据考古(data archeology), 数据捕捞(data dredging), 信息收获(information harvesting), 商务智能(business intelligence), 等.
什么不是数据挖掘?
(演绎) 查询处理.
专家系统或小型机器学****ML)/统计程序
2018/1/25
6
数据挖掘:概念与技术
为什么要数据挖掘?—可能的应用
数据库分析和决策支持
市场分析和管理
针对销售(target marketing), 顾客关系管理, 购物篮分析, 交叉销售(cross selling), 市场分割(market segmentation)
风险分析与管理
预测, 顾客关系, 改进保险, 质量控制, 竞争能力分析
欺骗检测与管理
其它应用
文本挖掘(新闻组, email, 文档资料)
流数据挖掘(Stream data mining)
Web挖掘.
DNA 数据分析
2018/1/25
7
数据挖掘:概念与技术
市场分析与管理(1)
用于分析的数据源在哪?
信用卡交易, 会员卡, 打折优惠卷, 顾客投诉电话, (公共) 生活时尚研究
针对销售(Target marketing)
找出顾客群, 他们具有相同特征: 兴趣, 收入水平, 消费****惯, 等.
确定顾客随时间变化的购买模式
个人帐号到联合帐号的转变: 结婚, 等.
交叉销售分析(Cross-market analysis)
产品销售之间的关联/相关
基于关联信息的预测
2018/1/25
8
数据挖掘:概念与技术
市场分析与管理(2)
顾客分类(Customer profiling)
数据挖掘能够告诉我们什么样的顾客买什么产品(聚类或分类)
识别顾客需求
对不同的顾客识别最好的产品
使用预测发现什么因素影响新顾客
提供汇总信息
各种多维汇总报告
统计的汇总信息(数据的中心趋势和方差)
2018/1/25
9
数据挖掘:概念与技术
法人分析和风险管理
财经规划和资产评估
现金流分析和预测
临时提出的资产评估
交叉组合(cross-sectional) 和时间序列分析(金融比率(financial-ratio), 趋势分析, 等.)
资源规划:
资源与开销的汇总与比较
竞争:
管理竞争者和市场指导
对顾客分类和基于类的定价
在高度竞争的市场调整价格策略
2018/1/25
10
数据挖掘:概念与技术