1 / 26
文档名称:

《数据挖掘》结课报告.docx

格式:docx   大小:287KB   页数:26页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

《数据挖掘》结课报告.docx

上传人:sssmppp 2020/12/26 文件大小:287 KB

下载得到文件列表

《数据挖掘》结课报告.docx

文档介绍

文档介绍:《数据挖掘》结课报告
••基于k•最近邻分类方法的连衣裙属性数据集
的研究报告
(2013-2014学年 第二学期)
学 院:
专 业:
班 级:
学 号:
姓 名:
指导教师:
二o—四年五月二十四日
―、研究目的与意义
(介绍所选数据反应的主题思想及其研究目的与意义)
1、目的
熟悉weka软件环境;
掌握数据挖掘分类模型学****方法中的k-最近邻分类方法;
在 weka 中以 “Dress Attribute DataSetv 为例,掌握 k-最近 邻分类算法的相关方法;
取不同的K值,采用不同的预测方法,观察结果,达到是否 推荐某款连衣裙的目的,为企业未来的规划发展做出依据。
2、意义
此数据集共有14个属性,500个实例,包含了连衣裙的各种属 性和根据销售量的不同而出现的推荐情况,按照分类模型学****方法中 的k-最近邻分类方法依据各属性推断应推广哪些种类的裙子,对发 展市场的扩大及企业的发展战略具有重要意义。
二、技术支持
(介绍用来进行数据挖掘、数据分析的方法及原理)
1、 原理:k-最近邻分类算法是一种基于实例的学****方法,不需 要事先对训练数据建立分类模型,而是当需要分类未知样本时才使用 具体的训练样本进行预测,通过在训练集中找出测试集的K个最近 邻,来预测估计测试集的类标号;
2、 方法:k-最近邻方法是消极学****方法的典型代表,其算法的 关键技术是搜索模式空间,该方法首先找出最近邻即与测试样本相对 接近的所有训练样本,然后使用这些最近邻的类标号来确定测试样本 的类标号。
三、数据处理及操作过程
(-)数据预处理方法
1、 “remove”属性列:数据集中属性"DressJD?,对此实验来说 为无意义的属性,因此在“Attributes”选项中勾选属性“D佗ss」D” 并单击“remove”,将该属性列去除,并保存新的数据集;
2、 离散化预处理:需要对数值型的属性进行离散化,该数据集 中只有第3个属性“rating”和第13个属性recommendation为数 值型,因此只对这两个属性离散化。
"recommendation”属性只有2个取值:0, 1,因此用文本编辑 器“Ultra Edit”或者写字板打开数据集并直接修改"Dress Attribute Data 文件,扌巴 “***@attribute recommendation numeric ”改为 “ (©attribute recommendation {0,1,}",并保存;在 “Explorer” 中重 新打开 Dress Attribute Data ^,选中 u recommendation v 属性 后,右方的属性摘要中“Type”值 变为“Nominal”。
在过滤器Filter中单击"choose”,出现树形图,单击“weka”
-- “Filters" -- “unsupervisedv -- "attribute” -- “discretize”,点击 “Choose”右边的文本框进彳亍参数设置,把"attribute Indices右边 改成“3”,计划将该属性分成3段,于是把“bins”改成“3”,其它 参数不更改,点“0K”回到“Explorer”,单击
“Apply”离散化后的 数据如下所示:
3、缺失值预处理:在过滤器Filter中单击“choose” ,出现树形
图,单击"weka” -- “Filters" -- "unsupervised” -- “attribute” --
"Replace Missing Values”,单击 “Apply”。在 weka 中可以看出该数
据集中不存在缺失值,因此不必进行缺失值的预处理。
(-)参数设置
(要求介绍每个参数的意义、取值范围、调整依据及最终的设置)
1、数据集属性及其取值:
Dress_ID numeric:货号
Style:风格
{Sexy,Casual,vintage,Brief,cute,bohemian,Novelty,Flare,party,sexy,work,
OL’fashion}
Price:价格{Low’High,Average,Medium,very・high」ow,high}
Rating:等级numeric
Size:尺寸{M,L,XL?free,S,small?s}
Season:季节
{Summer,Auto mn ,Spri ng’Winter’spri ng’winter’summer’Autum n}
Neck Line:领口
{o・n eck,v-neck,boat-ne