1 / 7
文档名称:

数据挖掘概念与技术读书笔记.docx

格式:docx   大小:72KB   页数:7页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据挖掘概念与技术读书笔记.docx

上传人:gooddoubi 2021/10/21 文件大小:72 KB

下载得到文件列表

数据挖掘概念与技术读书笔记.docx

文档介绍

文档介绍:数据挖掘概念与技术读书笔记
数据挖掘概念与技术读书笔记
数据挖掘概念与技术读书笔记
第一章
可以挖掘的数据类型:
数据库数据,数据仓库(是一个从多个数据源收集的信息存储库,存放在一致的模式下,并且通常驻留在单个站点上,通常数据仓库用称作数据立方体的多维数据结构建模,数据立方体有下钻(往下细分)和上卷(继续记性总和归纳)操作),事务数据,时间先关或序列数据(如历史记录,股票交易数据等),数据流、空间数据、工程设计数据,超文本和多媒体数据
可以挖掘什么类型的模型
数据挖掘功能包括特征化与区分、频繁模式、关联和相关性挖掘分类与回归、聚类分析、离群点分析。数据挖掘功能用于指定数据挖掘任务发现的模式。一般而言,这些任务可以分为两类:描述性和预测性。描述性挖掘任务刻画目标数据中数据的一般性质。预测性挖掘任务在当前数据上进行归纳,以便做出预测.
特征化与区分:数据特征化(如查询某类产品的特征)、数据区分(将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较,如把具有不同特性的产品进行对比区分).
挖掘频繁模式、关联和相关性:频繁模式是在数据中频繁出现的模式(频繁项集、频繁子序列和频繁子结构)
用于预测分析的分类与回归:分类是找出描述和区分数据类或概念的模型,以便能够使用模型预测类标号未知的对象的类标号。到处模型是基于对训练数据集的分析。该模型用来预测类标号未知的对象类标号。表现形式有:分类规则(IF-THEN)、决策树、数学公式和神经网络。
分类预测类别标号,而回归简历连续值函数模型,而不是离散的类标号.
数据挖掘概念与技术读书笔记
数据挖掘概念与技术读书笔记
数据挖掘概念与技术读书笔记
相关分析可能需要在分类和回归之前进行,他试图识别与分类和回归过程显著相关的属性。
聚类分析:聚类分析数据对象,而不考虑类标号.
离群分析:数据集中可能包含一些数据对象,他么对数据的一般行为或模型不一致。这些数据时利群点.
使用什么技术:
统计学中的统计模型
机器学****监督学****分类的同义词学****中监督来自训练数据集中标记的实例)
无监督学****本质上是聚类的同义词。学****过程是无监督的,因为输入实例没有类标记。由于训练无边际,所以学****到的模型并不能告诉我们所发现的簇的语意.
半监督学****在学****模型时,它使用标记的和未标记的实例。标记的实例用来学****类模型,而未标记的实例用来进一步改进类边界。 
主动学****是一种机器学****方法,它让用户在学****过程中扮演主动角色
数据库系统和数据仓库
面向什么类型的应用
哪里有数据,哪里就用数据挖掘应用。
商务智能:进行有效的市场分析,比较类似产品的顾客反馈,发现其竞争对手的优势和缺点,留住具有高价值的顾客,做出聪明的商务决策。
Web搜索引擎:需要数以上千或上万计的计算机云协同挖掘海量数据,把数据挖掘方法升级到计算机计算机云和大型分布数据集上。
数据挖掘的主要问题:
挖掘方法:挖掘各种新的知识类型、挖掘多维空间中的知识、数据挖掘—跨学科的努力、提升网络环境下的发现能力、
数据挖掘概念与技术读书笔记
数据挖掘概念与技术读书笔记
数据挖掘概念与技术读书笔记
处理不确定性,噪声或不完全数据、模式评估和模式或约束指导的挖掘。
用户界面:交互挖掘:数据挖掘过程应该是高度交互