1 / 23
文档名称:

《数据挖掘》结课报告.doc

格式:doc   大小:461KB   页数:23页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

《数据挖掘》结课报告.doc

上传人:260933426 2017/8/31 文件大小:461 KB

下载得到文件列表

《数据挖掘》结课报告.doc

文档介绍

文档介绍:《数据挖掘》结课报告
--基于k-最近邻分类方法的连衣裙属性数据集的研究报告
(2013--2014 学年第二学期)
学院:
专业:
班级:
学号:
姓名:
指导教师:
二〇一四年五月二十四日
研究目的与意义
(介绍所选数据反应的主题思想及其研究目的与意义)
1、目的
(1)熟悉weka软件环境; 
(2)掌握数据挖掘分类模型学****方法中的k-最近邻分类方法; 
(3)在weka中以“Dress Attribute DataSet”为例,掌握k-最近邻分类算法的相关方法;
(4)取不同的K值,采用不同的预测方法,观察结果,达到是否推荐某款连衣裙的目的,为企业未来的规划发展做出依据。
意义
此数据集共有14个属性,500个实例,包含了连衣裙的各种属性和根据销售量的不同而出现的推荐情况,按照分类模型学****方法中的k-最近邻分类方法依据各属性推断应推广哪些种类的裙子,对发展市场的扩大及企业的发展战略具有重要意义。
二、技术支持
(介绍用来进行数据挖掘、数据分析的方法及原理)
1、原理:k-最近邻分类算法是一种基于实例的学****方法,不需要事先对训练数据建立分类模型,而是当需要分类未知样本时才使用具体的训练样本进行预测,通过在训练集中找出测试集的K个最近邻,来预测估计测试集的类标号;
2、方法:k-最近邻方法是消极学****方法的典型代表,其算法的关键技术是搜索模式空间,该方法首先找出最近邻即与测试样本相对接近的所有训练样本,然后使用这些最近邻的类标号来确定测试样本的类标号。
三、数据处理及操作过程
(一)数据预处理方法
1、“remove”属性列:数据集中属性“Dress_ID”对此实验来说为无意义的属性,因此在“Attributes”选项中勾选属性“Dress_ID”并单击“remove”,将该属性列去除,并保存新的数据集;
2、离散化预处理:需要对数值型的属性进行离散化,该数据集中只有第3个属性“rating”和第13个属性“mendation”为数值型,因此只对这两个属性离散化。
“mendation”属性只有2个取值:0,1,因此用文本编辑器“Ultra Edit”或者写字板打开数据集并直接修改“Dress Attribute Data ”文件,把“***@attribute mendation numeric ”改为“***@attribute mendation {0,1,}”,并保存;在“Explorer”中重新打开“Dress Attribute Data ”,选中“mendation”属性后,右方的属性摘要中“Type”值变为“Nominal”。
在过滤器Filter中单击“choose”,出现树形图,单击“weka”--“Filters”--“unsupervised”--“attribute”--“discretize”,点击“Choose”右边的文本框进行参数设置,把“attribute Indices”
右边改成“3”,计划将该属性分成3段,于是把“bins”改成“3”,其它参数不更改,点“OK”回到“Explorer”,单击“Apply”离散化后的数据如下所示:

3、缺失值预处理:在过滤器Filter中单击“choose”,出现树形图,单击“weka”--“Filters”--“unsupervised”--“attribute”--“Replace Missing Values”,单击“Apply”。在weka中可以看出该数据集中不存在缺失值,因此不必进行缺失值的预处理。
(二)参数设置
(要求介绍每个参数的意义、取值范围、调整依据及最终的设置)
1、数据集属性及其取值:
(1)Dress_ID numeric:货号
(2)Style:风格{Sexy,Casual,vintage,Brief,cute,bohemian,Novelty,Flare,party,sexy,work,OL,fashion}
(3)Price:价格{Low,High,Average,Medium,very-high,low,high}
(4)Rating:等级numeric
(5)Size:尺寸{M,L,XL,free,S,small,s}
(6)Season:季节{Summer,Automn,Spring,Winter,spring,winter,summer,Autumn}
(7)Neck Line:领口{o-neck,v-neck,boat-neck,peterpan-collor,ruffled,turndowncollor,slash-neck,mandarin-collor,open,sqa