1 / 8
文档名称:

数据仓库与数据挖掘技术-试题答案.doc

格式:doc   大小:86KB   页数:8页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据仓库与数据挖掘技术-试题答案.doc

上传人:蓝天 2022/7/2 文件大小:86 KB

下载得到文件列表

数据仓库与数据挖掘技术-试题答案.doc

文档介绍

文档介绍:数据仓库与数据挖掘技术
答案
一、简答
为什么需要对数据进行预处理?数据预处理主要包括哪些工作(需要对数据进行哪些方面 预处理)?
(1) 现实世界的数据是杂乱的,数据多了什么问题会出现。数据库极易受到噪音数据(包 含错误或孤立点)te/attnbutes can be removed, and why?
hair
location
children
size
SIN
class
biown
Ottawa
3
big
'650786281'
0
blond
toronto
3
small
'568326546'
1
brown
Ottawa
3
big
'743284021'
0
brown
toronto
3
big
‘342140966’
0
brown
Ottawa
3
big
‘167432928’
0
brown
toronto
3
small
‘789032643’
1
blond
Ottawa
3
small
•124780945*
1
brown
toronto
3
big
'643826437'
0
blond
Ottawa
3
small
*548931098'
1
blond
Ottawa
3
small
‘439782167’
1
答:
决策树表示一种树型结构,它由它的分来对该类型对象依靠属性进行分类。每个决策树 可以依靠对源数据库的分割进行数据测试。这个过程以递归的方式对树进行修剪。当不 能再分割时,递归完成。因此决策树不会无限循环。
0
size
Children,SIN,class
(20分)假定有如下的训练数据(类别属性为Class), 的文件中,每一条训练样例列在一行上,不同属性之间用空格隔开。
hair
location
children
size
SIN
class
brown
Ottawa
3
big
'650786281
0
blond
toronto
3
small
,568326546'
1
brown
Ottawa
3
big
*743284021'
0
brown
toronto
3
big
342140966'
0
brown
Ottawa
3
big
'16743292$'
0
brown
toronto
3
small
'789032网'
1
blond
Ottawa
3
small
1124780945'
1
brown
toronto
3
big
'网炒37、
0
blond
Ottawa
3
ymll
,548931098'
1
blond
Ottawa
3
small
'439782167'
1
请用C、C++或Java设计程序,利用上述训练数据训练Naive Bayes分类器,然后 利用训练好的分类器对任意一个人(如<brown, toronto, 3, big, '455859595'〉)进 行分类。
public class BayesClassifier
{