1 / 16
文档名称:

用matlab实现大数据挖掘的一种算法.doc

格式:doc   大小:42KB   页数:16页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

用matlab实现大数据挖掘的一种算法.doc

上传人:511709291 2021/12/8 文件大小:42 KB

下载得到文件列表

用matlab实现大数据挖掘的一种算法.doc

相关文档

文档介绍

文档介绍:word
word
1 / 16
word
一、数据挖掘的目的
数据挖掘(Data Mining)阶段首先要确定挖掘的任务或目的。数据挖掘的目的就是得出隐藏在数据中的有价值的信息。数据挖掘是一门涉与面很广的交叉学科,包括器学****数理统计、神经网络、数据库、模式识别、粗糙集、模糊数学等相关技术。它也常被称为“知识发现〞。知识发现(KDD)被认为是从数据中发现有用知识的整个过程。数据挖掘被认为是KDD过程中的一个特定步骤,它用专门算法从数据中抽取模式(patter,如数据分类、聚类、关联规如此发现或序列模式发现等。数据挖掘主要步骤是:数据准备、数据挖掘、结果的解释评估。
二、数据挖掘算法说明
确定了挖掘任务后,就要决定使用什么样的挖掘算法。由于条件属性在各样本的分布特性和所反映的主观特性的不同, 每一个样本对应于真实情况的局部映射。建立了粗糙集理论中样本知识与信息之间的对应表示关系, 给出了由属性约简求约简决策表的方法。基于后离散化策略处理连续属性, 实现离散效率和信息损失之间的动态折衷。提出相对值条件互信息的概念衡量单一样本中各条件属性的相关性, 可以充分利用现有数据处理不完备信息系统。
本次数据挖掘的方法是两种,一是找到假如干条特殊样本,而是找出假如干条特殊条件属性。最后利用这些样本和属性找出关联规如此。〔第四局部详细讲解样本和属性的选择〕
三 数据预处理过程
数据预处理一般包括消除噪声、推导计算缺值数据、消除重复记录、完成数据类型转换(如把连续值数据转换为离散型数据,以便于符号归纳,或是把离散型数据转换为连续)。
本文使用的数据来源是名为“CardiologyCategorical〞的excel文件中的“源数据〞。该数据表共303行,14个属性。即共有303个样本。将该数据表的前200行设为训练样本,剩下后的103行作为测试样本,用基于粗糙集理论的属性约简的方法生成相应的规如此,再利用测试样本对这些规如此进展测试。
首先对源数据进展预处理,主要包括字符型数据的转化和数据的归一化。
数据预处理的第一步是整理源数据,为了便于matlab读取数据,把非数字数据转换为离散型数字数据。。这一局部直接在excel工作表中直接进展。
步骤如下:
将属性“sex〞中的“Male〞用“1〞表示,“Female〞用“2〞表示;
将属性“chest pain type〞中的“Asymptomatic〞用“1〞表示,“Abnormal Angina〞用“2〞表示,“Angina〞用“3〞表示,“NoTang〞用“4〞表示;
word
word
2 / 16
word
将属性“Fasting blood suga<120”与属性“angina〞中的“FALSE〞用“1〞表示,“TRUE〞用“2〞表示;
将属性“resting ecg〞中的“Hyp〞 用“1〞 表示,“Normal〞用“2〞表示,“Abnormal〞用“3〞表示;
将属性“slope〞中的“Down〞用“1〞表示,“Flat〞用“2〞表示,“Up〞用“3〞表示,;
将属性“thal〞中的“Rev〞用“1〞表示,“Normal〞用“2〞表示,“Fix〞用“3〞表示;
将属性“class〞中的“Healthy〞用“1〞表示,“Sick〞用“2〞表示;
数据预处理的第二步:使用
dm=xlsread('lisanhua');
导入’lisanhua’.xls文件,在MATLAB中对一些连续属性值离散化。
如下:
1、[29,48]=1,[48,62]=2,[62,77]=3
4、[94,110]=1,[110,143]=2,[143,200]=3
5、[,205]=1,[205,293]=2,[293,564]=3
8、[71,120]=1,[120,175]=2,[175,202]=3
10、[0,]=1,[,]=2,[,]=3。
然后对数据进展归一化处理:
由于不同属性之间的属性值一样,所以利用下面语句对一共13个条件属性中的38个属性进展如下赋值,使每条属性唯一确定。从而得到38个条件属性,只不过38个里面有且只能出现13个。
程序如下:
m1=[0,3,2,4,3,3,2,3,3,2,3,3,4,3];k=1;w=m1(k);dm3=dm2;
for i=1:3939
dm3(i)=dm2(i)+w;
if rem(i,303)==0
k=k+1;
w=w+m1(k);
end
end
从而得到dm(3)矩阵。而且决策属性分为1:healthy;2:sick

最近更新