文档名称：

广东工业大学数据挖掘13年试卷.docx

格式：docx 大小：47KB 页数：3页

下载后只包含 1 个 DOCX 格式的文档，没有任何的图纸或源代码，查看文件列表

如果您已付费下载过本站文档，您可以点这里二次下载

预览

下载此文档

广东工业大学数据挖掘13年试卷.docx

上传人:森林书屋 2022/11/30 文件大小：47 KB

下载得到文件列表

广东工业大学数据挖掘13年试卷.docx

相关文档

文档介绍

文档介绍：该【广东工业大学数据挖掘13年试卷】是由【森林书屋】上传分享，文档一共【3】页，该文档可以免费在线阅读，需要了解更多关于【广东工业大学数据挖掘13年试卷】的内容，可以使用淘豆网的站内搜索功能，选择自己适合的文档，以下文字是截取该文章内的部分文字，如需要获得完整电子版，请下载此文档到您的设备，方便您编辑和打印。广东工业大学考试试卷 (A 卷)
课程名称:
数据挖掘
试卷满分
100分
:
考试时间:2013
年7
月3
日(
第19
周星期三)
名
姓
题号
一
二
三
四
五
六
七
八
九
十
总分
评卷得分
线
评卷签名
复核得分
:
复核签名
号
学
一、请写出遗传算法的主要算法流程。(5
分)
二、请创建一个matlab函数,用于绘制出y
sinx在[0,
1]区间内的函数图
像。(5分)
订
级
班
三、超级市场的销售系统记录了顾客购物的情况,下表中记录了
5个顾客的
购物单。
记录号
所购物品清单
1
啤酒、尿布,婴儿爽身粉,面包,雨伞
2
尿布,婴儿爽身粉,牛奶
3
啤酒、尿布,牛奶
:
装
4
尿布,啤酒,洗衣粉
业
5
啤酒,牛奶,可乐饮料
专
超市经理想知道商品之间的关联,要求列出那些同时购买的、且支持度≥60%
(即在5行中至少出现3次)的商品名称,然后找出置信度不低于
70%的有
用规则。(15分)
:
院
学
四、在对某位观众进行电影喜好的调查研究中,收集到如下问卷的结果: (15分)
电影序号
电影来源
故事背景
放映时间
总评
1
欧美
历史剧
白天
好
2
大陆
现代剧
晚上
差
3
港台
现代剧
晚上
中
4
欧美
历史剧
白天
差
5
大陆
历史剧
晚上
好
6
大陆
历史剧
白天
中
7
港台
现代剧
晚上
中
现在影院准备上映一部新的大陆、历史剧,并选择晚上放映,请用朴素贝叶斯方法判断此观众对新电影的评价。(20分)
五、假定公司收集了下表数据,那么对于任意给定的客人(测试样例),你能帮助公司将这位客人归类吗?请采用ID3算法对给定的数据集生成决策树,用于判断顾客对电脑的购买意愿,画出相应的决策树。(20分)
顾客编号
年龄
收入
信誉度
是否购买
1
青
高
良
否
2
青
高
优
否
3
中
高
良
是
4
老
中
良
是
5
老
低
良
是
6
老
低
优
否
7
中
低
优
是
8
青
低
良
是
六、现有A(0,0,0)、B(0,1,0)、C(1,0,1)
、D(2,1,2)
、E(1,1,2),请用K-means方法对
其进行聚类,样本间的距离公式采用函数
d
xi
yi计算,将所有点聚成G1和G2两
i
类,计算过程中每类的中心点用O1和O2表示,用样本均值计算类中心,以A和B作
为初始聚类中心,须写清每次迭代的结果。(
20分)
七、请将下列用matlab实现KNN算法的代码补充完整。(每小空
2分,共20分)
functionc=knn(X,Y,t,k)%
主函数
[n,m]=___(1);
%
取得样本集X的行数和列数
N=zeros([k,2]);
%
用于存放k个近邻
fori=1:k
N(i,1)=i;
%
记录样本序号
N(i,2)=___(2)
;
%
计算样本与目标的距离
end;
i_max=find_max(N);
%
找出最远的近邻
fori=(3),
d=dist(X(i,:),t);
ifd<

(4)

%

如果条件成立,则替换最远近邻
N(i_max,1)=i;
N(i_max,2)=
i_max=

(5)
(6) ;

;
end
end
YN=Y(N(:,1));

%

记录最终

k个近邻的分类编号
7)=max(YN);cn=0;
fori=1:q % 找出近邻数最多的类编号
ifcn<length(find(YN==i))
c=i;
cn= (8);
end;
end;
(9)d=dist(x,y)%用于计算样本间的距离的函数d=sqrt(sum(x.*y));
functioni_max=find_max(N)%找出最远近邻的编号i_max=1;%用于存放最远近邻的编号
k=size(N,1);
fori=2:k
if (10)
i_max=i;
end;
end;
(全卷结束)