1 / 12
文档名称:

数据挖掘总结.pdf

格式:pdf   大小:628KB   页数:12页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据挖掘总结.pdf

上传人:慢慢老师 2021/5/4 文件大小:628 KB

下载得到文件列表

数据挖掘总结.pdf

文档介绍

文档介绍:1.【p26 】
假设你是BigUniversity的软件工程师,任务是设计一个数据挖掘系统,
分析学校课程数据库。该数据库包括如下信息:每个学生的姓名、地址
和状态(例如本科生或研究生)所修课程以及他们的GPA(平均积分
点)。描述你要选取的结构。该结构的每个成分的作用是什么。
答:该数据挖掘结构应该包括以下几个主要成分:
(1)一个数据库、数据仓库或其它信息库,它由一系列包含学生和课
程信息的数据库、数据仓库、电子表格、或其它信息库组成。
(2)一个数据库或数据仓库服务器,它根据用户的数据挖掘请求获取
相关的数据。
(3)一个知识库,它包含领域知识,用于指导搜索或评估结果模式的
兴趣度。例如,知识库可能包含概念层次结构和元数据(例如,描述来
自多个异构数据源的数据)。
(4)一个数据挖掘引擎,它由一系列负责分类、关联、聚类分析、演
变和偏差分析的功能模块组成。
(5)一个模式评估模块,它与数据挖掘模块串联工作,采用兴趣度的
方法,将搜索重心投注在兴趣模式上。
(6)一个图形用户界面,它为用户提供对数据挖掘系统的交互式途
径。
2.【p63 】
中列数是最大值和最小值的平均数。
五数概括就是中位数、四分位数Q1和Q3、最小值和最大值
箱线图(盒图)在p35
分位数图是一种观察单变量数据分布的简单有效方法,他显示给定属性
的所有数据(允许用户评估总的情况和不寻常的出现)。其次它绘出了
分位数信息
3.【p63 】
问:以计数、标准差和中位数为例说明分布的或代数的度量
有利于有效的增量计算,而整体度量不行。
答:计数:当前的计数count可以作为一个值来保存,当有x个新值加进
来时,可以很容易地更新count值为(count+x)。这就是分布式度量,
可以很容易地进行增量计算。
标准差:如果我们之前存储了已有数据平方的和sum和它们的计数
count,就可以很容易地利用公式得到新的标准差,只需要计算新加入
数据平方的和并将其加入sum中,同时更新count值,随后将它们插入计
算中就可获得新的标准差。这些都不用重新扫描整个数据集而可以轻松
得到。这就是代数度量,可以容易进行增量计算。
中位数:要准确得到中位数必须扫描整个数据集。当加入了新的数据后
必须重新进行排序,然后在新的排序后的数据集中查找中位数。这是比
较困难的,这就是整体度量,没办法对增量进行有效的计算。
4.【p63 】数据缺省值处理
(1)忽略元组。当缺少类标号时通常这样做(假定挖掘任务涉及分
类)。除非元组有多个属性缺少值,否则该方法不是很有效。当每个属
性缺少值的百分比变化很大时,它的性能特别差。
(2)人工填写缺失值。一般该方法很费时,并且当数据集很大,缺少
很多值时,该方法可能行不通。
(3)使用一个全局常量填充缺失值。将缺失的属性值用同一个常数
(如“Unknown”)替换如果缺失值都用“Unknown”替换,则挖掘程序可
能误以为它们形成了一个有趣的概念,因为它们都具有相同的
值“Unknown”。因此,尽管该方法简单,但是它并不是十分可靠。
(4)使用属性的均值填充缺失值。
(5)使用与给定元组属同一类的所有样本的属性均值。
(6)使用最可能的值填充缺失值。可以用回归、使用贝叶斯形式化的
基于推理的工具或决策树归纳确定。
5.【p63 】
(1)问:使用分箱均值光滑对数据进行光滑的步骤(深度为
3)
答:①对数据进行排序;②将数据划分到大小为3的等频箱中;③计
算每个箱的均值;④箱中的值都被箱的均值替换。
(2)问:如何确定数据中的离群点
答:可以通过聚类来检测离群点,将类似的值组织成群或簇。直观地,
落在簇集合之外的值视为离群点。电脑和人的检查可以结合来判断,先
由电脑根据已有的数据分布状况得出可能的离散点,然后再由人来对这
些可能的离散点进行进一步的分析来确定离散点,这样大大地减少了人
单独工作的工作量。
(3)问:对于数据光滑还有哪些方法
答:类似的还有分箱中位数光滑,此时箱中的每一个值都被箱中位数替
换。分箱边界光滑,箱中的最大和最小值同样被视为箱边界,箱中的每
个值都被最近的边界值替换。一般来说,宽度越大光滑效果越大。箱可
以是等宽的,每个箱值的区间范围是个常量。
此外可以用一个函数(如回归函数)拟合数据来光滑数据。线性回归涉
及找出拟合两个属性的最佳线,使得一个属性可以用来预测另一个。多
元线性回归是线性回归的扩展,其中涉及的属性多于两个,并且数据拟
合到一个多维曲面。
概念分层也可以用于数据光滑。
6.【p63 】
问:数据集成需要考虑的问题
答:①实