1 / 3
文档名称:

数据挖掘:概念与技术.docx

格式:docx   大小:13KB   页数:3页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据挖掘:概念与技术.docx

上传人:niupai21 2022/5/25 文件大小:13 KB

下载得到文件列表

数据挖掘:概念与技术.docx

相关文档

文档介绍

文档介绍:对每个样本进行 R、F、M 三个指标进行标准化聚类(聚类数目可以自定,如每个指标以平 均值上下分为两类,则三个指标总共可分2*2*2=8 个类),对每个类的总价值进行排序然后 对 RFM 进行层次分析发进行加权求和, 到 ,对属性 规范化。
学****三种:最小-最大规范化、z-score规范化和按小数定标规范化。(eg、)
3、 数据归约 数据归约技术可以用来得到数据集的归约表示,它小得多,但仍接近地保持原数据 的完整性。这样,在归约后的数据集上挖掘将更有效,并产生相同(或几乎相同)的分
析结果。
数据归约的策略如下:
数据方聚集:聚集操作用于数据方中的数据。
维归约:可以检测并删除不相关、弱相关或冗余的属性或维。
数据压缩:使用编码机制压缩数据集。
数值压缩:用替代的、较小的数据表示替换或估计数据,如参数模型(只需要 存放模型参数,而不是实际数据)或非参数方法,如聚类、选样和使用直方图。
离散化和概念分层产生:属性的原始值用区间值或较高层的概念替换。概念分 层允许挖掘多个抽象层上的数据,是数据挖掘的一种强有力的工具。
数据方聚集
维归约 维归约通过删除不相关的属性(或维)减少数据量。通常使用属性子集选择方法。属性 子集选择的目标是找出最小属性集,使得数据类的概率分布尽可能地接近使用所有属性的原 分布。在压缩的属性集上挖掘还有其它的优点。它减少了出现在发现模式上的属性的数目, 使得模式更易于理解。
“最好的”(或“最差的”)属性使用统计测试来选择。这种测试假定属性是相互独立的。 也可以使用一些其它属性估计度量,如使用信息增益度量建立分类判定树。
数据压缩
两种流行、有效的有损数据压缩方法:小波变换和主要成分分析(PCA)。主成分分析
可以用于有序和无序的属性,并且可以处理稀疏和倾斜数据。与数据压缩的小波变换相比, PCA能较好地处理稀疏数据,而小波变换更适合高维数据。
数值归约 “我们能通过选择替代的、‘较小的'数据表示形式来减少数据量吗?”数值归约技术
可以用于这一目的。这些技术可以是有参的,也可以是无参的。对于有参方法,使用一个模 型来评估数据,使得只需要存放参数,而不是实际数据。(局外者也可能被存放。)对数线性 模型是一个例子,它估计离散的多维概率分布。存放数据归约表示的非参数的方法包括直方 图、聚类和选样。
数值数据的离散化和概念分层产生 我们考察五种数值概念分层产生方法:分箱、直方图分析、聚类分析、基于熵的离散化
和通过“自然划分”的数据分段。
通过自然划分分段: 3-4-5 规则可以用于将数值数据划分成相对一致、“自然的”区间。 一般地,该规则根据最重要的数字上的值区域,递归地、逐层地将给定的数据区域划分为3、 4 或 5 个等长的区间。该规则如下:
„ 如果一个区间在最重要的数字上包含3、 6、 7 或9 个不同的值,则将该区间划分成3 个 区间(对于3、 6和9,划分成3个等宽的区间;而对于7,按2-3-2分组,划分成3个 区间);
„ 如果它在最重要的数字上包含2 、 4或8个不同的值,则将区间划分成4个等宽的区间; „ 如果它在最重要的数字上包含1、5或10个不同的值,则将区间划分成5个等宽的区间。
第六章 关联分析
冰山查询