文档介绍:数据挖掘概念与技术 — Chapter 1 —
©Jiawei Han and Micheline Kamber
2018/2/16
1
Data Mining: Concepts and Techniques
Chapter 1. 引言
什么激发了数据挖掘,为什么它是重要的?
什么是数据挖掘?
在何种数据上进行数据挖掘?
数据挖掘功能
所有模式都是有趣的吗?
数据挖掘系统的分类
数据挖掘的主要问题
2018/2/16
2
Data Mining: Concepts and Techniques
需要是发明之母
数据爆炸问题
自动数据收集工具和成熟的数据库技术导致海量数据累积,需要对数据库、数据仓库及其他信息存储设备中的数据进行分析。
我们溺死在数据坟墓中,却难以提取有效信息
解决方法:数据仓库与数据挖掘
数据仓库 and 联机分析处理(OLAP)
在大型数据库数据中挖掘有趣知识(规则, 模式, 约束)
2018/2/16
3
Data Mining: Concepts and Techniques
数据库技术发展
1960s:
数据收集,数据创建
1970s:
关系数据模型, 关系数据库管理系统
1980s:
高级数据模型(扩充关系, 面向对象, etc.)
面向应用的数据库管理系统(空间的,时间的,知识库, etc.)
1990s:
数据挖掘,数据仓库,Web 数据库
2000s
面向各种应用的数据挖掘
Web 技术和全球信息系统
2018/2/16
4
Data Mining: Concepts and Techniques
什么是数据挖掘?
数据挖掘(从数据中提取或“挖掘”知识)
从大量数据中提取有兴趣(不琐碎的, 固有的, 先前未知的和潜在有用的) 知识
数据挖掘: 用词不当?
同义词
数据库中知识挖掘、知识提取、数据/模式分析、数据考古和数据捕捞
注意事项: Is everything “data mining”?
查询处理.
专家系统或统计程序
2018/2/16
5
Data Mining: Concepts and Techniques
为什么要数据挖掘?—潜在的应用
数据分析与决策支持
市场分析和管理
目标市场,客户关系管理, 市场销售分析, 交叉销售, 市场分割
风险分析和管理
预测, 消费能力, 质量控制,竞争力分析
欺骗探测和不寻常行为探测
其他应用
Web 挖掘
DNA 和生物信息挖掘
2018/2/16
6
Data Mining: Concepts and Techniques
市场分析和管理
数据来源?
信用卡事务, 折扣优待卷,客户投诉电话, 公众生活方式调查
目标市场
发现具有相同特征(兴趣、收入状况、消费习惯等)的消费者模式
随着时间发展,决定消费者购买的模式
交叉市场分析
产品间的销售联系, 基于这些联系进行预测
消费者类型
什么样的消费者买什么样的产品(聚类 or 分类)
消费需求分析
为不同消费者提供最好产品
预测吸引新消费者的因素
提供信息总结
多维总结报告
分析汇总信息(数据集中趋势和变化)
2018/2/16
7
Data Mining: Concepts and Techniques
公司分析& 风险管理
经费计划与资产评估
现金流转分析和预测
临时问题分析进行评估资产
交叉组合和时间序列分析(财政比率, 趋势分析, etc.)
资源计划
总结、比较资源花费
竞争
监控竞争者和市场方向
划分消费群和基于分类的定价程序
制定具有高度市场竞争力的定价策略
2018/2/16
8
Data Mining: Concepts and Techniques
欺骗探测& 挖掘不寻常模式
方法: 聚类进行欺骗模式构造, 孤立点分析
应用: 卫生保健, 零售业, 信用卡服务.
汽车保险:
洗钱: 可疑金钱事务
医疗保险
长途通讯
零售产业
分析显示: 38% 的零售收缩归咎于不诚实雇员
反对恐怖主义
2018/2/16
9
Data Mining: Concepts and Techniques
其他应用
运动
IBM高级侦察系统统计NBA比赛
天文学
喷气推进实验所(JPL) 与 Palomar 天文台在数据挖掘帮助下发现22类星体
2018/2/16
10
Data Mining: Concepts and Techniques