文档介绍：引言
一、填空题
(1)数据库中的知识挖掘(KDD)包括以下七个步骤:数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估和知识表示
(2) 数据挖掘的性能问题主要包括: 算法的效率、可扩展性和并行处理
(3) 当前的数据挖掘研究中,最主要的三个研究方向是: 统计学、数据路技术和
机器学****br/>(4) 孤立点是指: 一些与数据的一般行为或模型不一致的孤立数据
二、简答题
(1)什么是数据挖掘?
答:数据挖掘指的是从大量的数据中挖掘出那些令人感兴趣的,有用的,隐含的,先前未知的和可能有用的模式或知识。
(2)一个典型的数据挖掘系统应该包括哪些组成部分?
答:1,数据库、数据仓库或其他信息库;2,数据库或数据仓库服务器;3,知识库;4,数据挖掘引擎;5,模式评估模块;。
(3)Web挖掘包括哪些步骤?
答:数据清理(可能有占全过程的60%的工作量);将数据存入数据仓库;建立数据立方体;选择用来进行数据挖掘的数据;数据挖掘(选择适当的算法来找到感兴趣的模式);展现挖掘结果;将模式或者知识应用或者存入知识库。
(4)请列举数据挖掘应用常见的数据源。
(或者说,我们都在什么样的数据上进行数据挖掘)
答:常见的数据源包括关系数据路、数据仓库、事务数据库和高举数据库系统和信息库。其中国际数据库系统和信息库包括:空间数据库、时间数据库和时间序列数据库、流数据、多媒体数据库、面向对象数据库和对象关系数据库、异种数据库和遗产数据库、文本数据库和万维网等。
第二章认识数据
一、填空题
(1)两个文档向量d1和d2的值为:d1 = (1, 0, 3, 0, 2),d2 = (3, 2, 0, 0, 1),则它们的余弦相似度为: 5/13
(2)数据离散度的常用度量包括极差、分位数、四分位数、百分位数
四分位数极差和标准差
(3)一种常用的确定离群点的简单方法是: *IQR处的值。
二、单选题
(1)对于下图所示的正倾斜数据,中位数、平均值、众数三者之间的关系是:
A、中位数=平均值=众数; B中位数>平均值>众数;
C、平均值>中位数>众数; D;众数>中位数>平均值
选C
(2)下面的散点图显示哪种属性相关性?
A不相关; B正相关; C负相关; D先正相关然后负相关;
选C
三、简答题
(1)什么是基于像素的可视化技术?它有什么缺点?
答:对于一个M维数据集,基于像素的可视化技术在屏幕上创建m个窗口,每维一个。记录的m个维值映射到这些窗口对应位置上的m个像素。像素的颜色反映对应的值。基于像素的可视化技术的缺点;难以呈现对维空间的数据分布,不显示数据子空间是否存在稠密区域。
(2)对称的和不对称的二元属性有什么区别?
答:对称的二元属性指变量的两个状态具有同等价值或相同权重;而对不对称的二元属性中,变量的两个状态的重要性是不同的,对称的二元属性可以使用简单匹配系数苹果它们的相异度;ard系数评估它们的相异度。
第三章数据预处理
填空题
(1)进行数据预处理时所使用的主要方法包括:数据清理、数据集成、
数据变换和数据规约
(2)数据概化是指: 沿概念分层向上概化
(3)数据压缩可分为: 有损压缩和无损压缩