1 / 18
文档名称:

北京工业大学-数据挖掘.docx

格式:docx   大小:1,129KB   页数:18页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

北京工业大学-数据挖掘.docx

上传人:ogthpsa 2020/5/10 文件大小:1.10 MB

下载得到文件列表

北京工业大学-数据挖掘.docx

文档介绍

文档介绍:数据挖掘老师范围最简知识点第一章数据仓库:是一个面向主题的,集成的,时变的,非易失的的数据集合数据挖掘:就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘分析方法:分类、估值、预言、相关性分组或关联规则、聚集、描述和可视化数据挖掘的过程:第二章数据属性:是一个数据字段,表示数据对象的一个特征属性类别:标称的二元的序数的数值的数据的中心趋势度量方法:均值、中位数、众数数据相似性和异度量方法:欧式距离:它是在m维空间中两个点之间的真实距离曼哈顿距离:切比雪夫距离:例子上下为一题闵可夫斯基距离:第三章数据预处理:是指在主要的处理以前对数据进行的一些处理。比如缺项,噪声(工资=-100),不匹配(年龄和出生日期不匹配),冗余等等。原因:不完备:丢失属性,缺少某个感兴趣的属性,或仅含累计值。噪声:包含错误点和离群点不一致:存在代码或者名称的分歧数据预处理中的主要任务:数据清理、数据集成、数据归纳、数据变换处理缺失值数据的方法:忽略:删除带有缺失值的属性或者案例、适用于错误率低的数据手工填充缺失值自动填充缺失值(根据推理得到)离群点分析的方法:通过如聚类来检测离群点聚类将类似的值组织成群或“簇”,落在簇集合之外的值被视为离群点如何对数据进行分箱:分箱方法通过考察数据的“临近”来光滑有序数据值箱均值光滑箱中位数光滑箱边界光滑。第四章数据仓库与OLAP技术数据仓库概念:数据仓库是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门的决策过程数据仓库特点:面向主题的、集成的、随时间而变化的(反映历史变化)、不容易丢失(相对稳定)数据仓库的组成:数据库数据抽取工具(ETL)元数据访问工具数据集市数据仓库管理工具信息发布系统数据仓库的体系结构:三层数据仓库模型联系分析处理OLAP:概念:即联机分析处理,是数据仓库的核心部心,所谓数据仓库是对于大量已经由OLTP形成的数据的一种分析型的数据库,用于处理商业智能、决策支持等重要的决策信息OLAP特点:快速性:快速反应能力可分析性:OLAP系统应能处理与应用有关的任何逻辑分析和统计分析多维性:系统必须提供对数据分析的多维视图和分析,包括对层次维和多重层次维的完全支持。信息性:不论数据量有多大,也不管数据存储在何处,OLAP系统应能及时获得信息,并且管理大容量信息。第五章关联规则基本概念频繁模式:是频繁地出现在数据集中的模式(如项集、子序列或子结构)频繁集项:根据特征提取器得到的特征向量给一个被测对象附一个类别标记。支持度(support)支持度:{X,Y}同时出现的概率,例如:{尿布,啤酒}同时出现的概率{尿布,啤酒}的支持度=800/10000={尿布,面包}的支持度=100/10000=**{尿布,啤酒}的支持度等于{啤酒,尿布}的支持度,支持度没有先后顺序之分置信度(confidence)置信度:购买X的人,同时购买Y的概率,例如:购买尿布的人,同时购买啤酒的概率,而这个概率就是购买尿布时购买啤酒的置信度(尿布->啤酒)的置信度=800/1000=(啤酒->尿布)的置信度=800/2000=,它们分别反映发现规则的有用性和确定性Apriori算法:原理:Apriori使用一种称作逐层搜索的迭代方法,k-项集用于探索(k+1)-项集。首先,找出频繁1-项集的集合。该集合记作L1。L1用于找频繁2-项集的集合L2,而L2用于找L3,如此下去,直到不能找到频繁k-项集。找每个Lk需要一次数据库扫描。