文档名称：

数据挖掘：概念与技术.docx

格式：docx 大小：13KB 页数：3页

下载后只包含 1 个 DOCX 格式的文档，没有任何的图纸或源代码，查看文件列表

如果您已付费下载过本站文档，您可以点这里二次下载

预览

下载此文档

数据挖掘：概念与技术.docx

上传人:niupai21 2022/5/25 文件大小：13 KB

下载得到文件列表

数据挖掘：概念与技术.docx

相关文档

文档介绍

文档介绍：对每个样本进行 R、F、M 三个指标进行标准化聚类（聚类数目可以自定，如每个指标以平均值上下分为两类，则三个指标总共可分2*2*2=8 个类），对每个类的总价值进行排序然后对 RFM 进行层次分析发进行加权求和，到，对属性规范化。
学****三种：最小-最大规范化、z-score规范化和按小数定标规范化。（eg、）
3、数据归约数据归约技术可以用来得到数据集的归约表示，它小得多，但仍接近地保持原数据的完整性。这样，在归约后的数据集上挖掘将更有效，并产生相同（或几乎相同）的分
析结果。
数据归约的策略如下：
数据方聚集：聚集操作用于数据方中的数据。
维归约：可以检测并删除不相关、弱相关或冗余的属性或维。
数据压缩：使用编码机制压缩数据集。
数值压缩：用替代的、较小的数据表示替换或估计数据，如参数模型（只需要存放模型参数，而不是实际数据）或非参数方法，如聚类、选样和使用直方图。
离散化和概念分层产生：属性的原始值用区间值或较高层的概念替换。概念分层允许挖掘多个抽象层上的数据，是数据挖掘的一种强有力的工具。
数据方聚集
维归约维归约通过删除不相关的属性（或维）减少数据量。通常使用属性子集选择方法。属性子集选择的目标是找出最小属性集，使得数据类的概率分布尽可能地接近使用所有属性的原分布。在压缩的属性集上挖掘还有其它的优点。它减少了出现在发现模式上的属性的数目，使得模式更易于理解。
“最好的”（或“最差的”）属性使用统计测试来选择。这种测试假定属性是相互独立的。也可以使用一些其它属性估计度量，如使用信息增益度量建立分类判定树。
数据压缩
两种流行、有效的有损数据压缩方法：小波变换和主要成分分析（PCA）。主成分分析
可以用于有序和无序的属性，并且可以处理稀疏和倾斜数据。与数据压缩的小波变换相比， PCA能较好地处理稀疏数据，而小波变换更适合高维数据。
数值归约 “我们能通过选择替代的、‘较小的'数据表示形式来减少数据量吗？”数值归约技术
可以用于这一目的。这些技术可以是有参的，也可以是无参的。对于有参方法，使用一个模型来评估数据，使得只需要存放参数，而不是实际数据。（局外者也可能被存放。）对数线性模型是一个例子，它估计离散的多维概率分布。存放数据归约表示的非参数的方法包括直方图、聚类和选样。
数值数据的离散化和概念分层产生我们考察五种数值概念分层产生方法：分箱、直方图分析、聚类分析、基于熵的离散化
和通过“自然划分”的数据分段。
通过自然划分分段： 3-4-5 规则可以用于将数值数据划分成相对一致、“自然的”区间。一般地，该规则根据最重要的数字上的值区域，递归地、逐层地将给定的数据区域划分为3、 4 或 5 个等长的区间。该规则如下：
„ 如果一个区间在最重要的数字上包含3、 6、 7 或9 个不同的值，则将该区间划分成3 个区间（对于3、 6和9，划分成3个等宽的区间；而对于7，按2-3-2分组，划分成3个区间）；
„ 如果它在最重要的数字上包含2 、 4或8个不同的值，则将区间划分成4个等宽的区间； „ 如果它在最重要的数字上包含1、5或10个不同的值，则将区间划分成5个等宽的区间。
第六章关联分析
冰山查询