文档介绍:数据挖掘技术与应用
陈燕教授
第2章数据采集集成与预处理技术
大连海事大学
本章提纲
数据采集的对象
数据集成技术与方法
数据预处理技术与方法
基于样本数据划分的通用数据挖掘模型系统
中间件技术
小结
数据采集的对象
随着计算机技术和大容量存储技术的发展以及多种数据获取技术的广泛应用,人们在日常事务处理和科学研究中积累了大量数据。
被保存的数据绝大部分都是呈现时间序列类型的数据。
所谓时间序列类型数据就是按照时间先后顺序排列各个观测记录的数据集。
数据采集的对象
时间序列在社会生活的各个领域都广泛的存在,如金融证券市场中每天的股票价格变化;商业零售行业中某项商品每天的销售额;气象预报研究中某一地区的每天气温与气压的读数;以及在生物医学中某一症状病人在每个时刻的心跳变化等等。不仅如此,时间序列也是反映事物运动、发展、变化的一种最常见的图形化描述方式。
数据采集的对象
Web挖掘与传统的数据挖掘相比有许多独特之处:
Web挖掘的对象是大量异质分布的Web文档。
Web在逻辑上是一个由文档节点和超链接构成的图,因此Web挖掘所得到的模式可能是关于Web内容的,也可能是关于Web结构的。
由于Web文档本身是半结构化或无结构的且缺乏机器可理解的语义,而传统数据挖掘的对象局限于数据库中的结构化数据并利用关系表格等存储结构来发现知识,因此有些数据挖掘技术并不适用于Web挖掘。即使可用也需要建立在对Web文档进行预处理的基础之上。
数据采集的对象
Web挖掘可分为三类:
Web内容挖掘:是从文档内容或其描述中抽取知识的过程。
Web结构挖掘:是从。
用户访问模式挖掘。
数据采集的对象
多媒体数据挖掘(Multimedia Data Mining, MDM)是目前国际上数据库、多媒体技术和信息决策领域最前沿的研究方向之一,是数据挖掘的一个新兴且富有挑战性的领域。
数据采集的对象
多媒体数据挖掘系统的原型结构如下图所示
数据采集的对象
多媒体数据挖掘系统的三个主要阶段:
数据准备
多媒体数据知识挖掘
知识表示与解释
数据采集的对象
空间数据挖掘(Spatial Data Mining, SDM)是指从空间数据库中提取出用户感兴趣的空间模式与特征、空间与非空间数据的普遍关系及其他的一些隐含在数据库中的普遍的数据特征。