1 / 27
文档名称:

数据挖掘的译文.docx

格式:docx   大小:39KB   页数:27页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

数据挖掘的译文.docx

上传人:非学无以广才 2022/12/6 文件大小:39 KB

下载得到文件列表

数据挖掘的译文.docx

文档介绍

文档介绍:该【数据挖掘的译文 】是由【非学无以广才】上传分享,文档一共【27】页,该文档可以免费在线阅读,需要了解更多关于【数据挖掘的译文 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。(一)中文翻译成果

简朴来说,数据挖掘可解释为从大量数据中提取或"挖掘"知识。该术语事实上用的不当。记住从矿石或砂子中挖掘黄金叫做黄金挖掘,而不是矿石挖掘。因此,数据挖掘应当更恰本地命名为"从数据中挖掘知识",这不幸的是这个有点儿长。"知识挖掘",一种短语,也许不能反映出从大量数据中挖掘的重点。毕竟,挖掘是一种生动的术语,特点在于从大量的、未加工的材料中发现少量金块这一过程。于是,这种用词不当携带了"数据"和"挖掘",就成了流行的选择。尚有某些术语,具有和数据挖掘类似但稍有不同的含义,如数据库中的知识挖掘、知识提取、数据及模式分析、数据考古和数据捕捞等。
诸多人把数据挖掘视为另一种常用的术语,即在数据库中的知识发现或KDD。可选择地,另某些人只是把数据挖掘视为数据库中知识发现过程的一种基本环节。知识发现的过程由如下环节构成:
:消除噪声或不一致数据
:多种数据可以组合在一起
:从数据库中检索与分析任务有关的数据
:通过例如概括汇总或者汇集操作的方式将数据变换或统一成适合挖掘的形式
:一项不可或缺的环节,使用智能措施提取数据模式
:在某种爱好度度量的基本上,辨认代表知识的真正有趣的模式,
:使用可视化和知识表达技术,向顾客提供挖掘的知识。
这种数据挖掘的环节可以与顾客或知识库进行交互。有趣的模式可提供应顾客,或作为新的知识寄存在知识库中。注意,根据这种观点,数据挖掘只是整个过程中的一种环节,却是最重要的一步由于它为模式评估揭开了隐藏的模式。
我们批准数据挖掘是一种知识发现过程。但是,在产业界、媒体和数据库研究界,"数据挖掘"比那个较长的术语"数据库中知识发现"更为流行。梭子,在书中,我们选用术语是数据挖掘。我们采用数据挖掘的广义观点:数据挖掘是从寄存在数据库中或其她信息库中的大量数据中挖掘出有趣知识的过程。
基于上述观点,一种典型的数据挖掘构造具有如下重要成分:
、数据仓库或其她信息库:这是一种或一组数据库、数据仓库、电子表格或其她类型的信息库。可以在数据上进行数据清理和集成。
、数据仓库服务器:根据顾客的数据挖掘祈求,数据库、数据仓库服务器负责提取有关数据。
:这是领域知识,用于指引搜索,或评估成果模式的爱好度。这种知识也许涉及概念分层,用于将属性或属性值组织成不同的抽象层。顾客确信方面的知识也可以涉及在内。可以使用这种知识,根据非盼望性评估模式的爱好度。领域知识的其她例子有爱好度限制或阈值和元数据(例如,描述来自多种异种数据源的数据)。
:这是数据挖掘系统基本的部分,由一组功能模块构成,用于特性化、关联、分类、聚类分析以及演变和偏差分析。
:一般,此成分使用爱好度度量,并与数据挖掘模块交互,以便将搜索汇集在有趣的模式上。它也许使用爱好度阈值过滤发现的模式。模式评估模块也可以与挖掘模块集成在一起,这依赖于所用的数据挖掘措施的实现。对于有效的数据挖掘,建议尽量深地将模式评估推动到挖掘过程之中,以便将搜索限制在有爱好的模式上。
:本模块在顾客和数据挖掘系统之间进行通信,容许顾客与系统进行交互,指定数据挖掘查询或任务,提供信息、协助搜索聚焦,根据数据挖掘的中间成果进行摸索式数据挖掘。此外,此成分还容许顾客浏览数据库和数据仓库模式或数据构造,评估挖掘的模式,以不同的形式对模式进行可视化。
从一种数据仓库观点来看,数据挖掘可以看作联机分析解决(OLAP)的高档阶段。但是,通过结合更高档的数据理解技术,数据挖掘比数据仓库的汇总型分析解决得更远。
尽管市场上已有许多"数据挖掘系统",但是并非所有系统的都能进行真正的数据挖掘。不能解决大量数据的数据分析系统,最多是被分类为一种机器学****系统、记录数据分析工具或实验系统原型。一种系统只可以进行数据或信息检索,涉及在大型数据库中找出汇集的值或回答演绎查询,应当归类为数据库系统,或信息检索系统,或演绎数据库系统。
数据挖掘波及多学科技术的集成,例如数据库技术、记录学、机器学****高性能计算、模式辨认、神经网络、数据可视化、信息检索、图像与信号解决和空间数据分析。我们采用数据库的观点。即,着重强调在大型数据库中有效的和可伸缩的数据挖掘技术。一种算法是可伸缩的,如果给定内存和磁盘空间等可运用的系统资源,其运营时间应当随数据库大小线性增长。通过数据挖掘,可以从数据库提取有趣的知识、规律或者高层信息,并可以从不同的角度来观测或浏览。发现的知识可以用于决策、过程控制、信息管理、查询解决,等等。因此,数据挖掘被信息产业界觉得是数据库系统最重要的前沿之一,是信息产业中最有前程的交叉学科。
数据挖掘是一种交叉学科的领域,受到多种学科的影响,涉及数据库系统、记录学、机器学****可视化和信息科学。此外,依赖于所用的数据挖掘措施,以及可以使用的其她学科的技术,如神经网络、模糊和/或粗糙集理论、知识表达、归纳逻辑程序设计或高性能计算。依赖于所挖掘的数据类型或给定的数据挖掘应用,数据挖掘系统也可以集成空间数据分析、信息检索、模式辨认、图形分析、信号解决、计算机图形学、Web技术、经济、商业、生物信息学或心理学领域的技术。
由于多种学科对数据挖掘有所协助,数据挖掘研究中就产生了大量的、多种不同类型的数据挖掘系统。因此,对数据挖掘系统提供一种清晰的分类很有必要。这种分类可以协助顾客辨别数据挖掘系统,辨认出最适合其需要的数据挖掘系统。根据不同的原则,数据挖掘系统可以有如下分类:

数据挖掘系统可以根据挖掘的数据库类型进行分类。数据库系统自身可以根据不同的原则(如数据模型,或数据或所波及的应用类型)来分类,每一类都也许需要自己的数据挖掘技术。这样,数据挖掘系统就可以据此进行相应的分类。
例如,如果是根据数据模型来分类,我们可以有关系的、事务的、面向对象的、对象-关系的或数据仓库的数据挖掘系统。如果是根据所解决的数据的特定类型分类,我们可以有空间的、时间序列的、文本的或多媒体的数据挖掘系统,或是WWW的数据挖掘系统。

数据挖掘系统可以根据所挖掘的知识类型进行分类。即根据数据挖掘的功能,如特性化、辨别、关联、分类聚类、孤立点分析和演变分析、偏差分析、类似性分析等进行分类。一种全面的数据挖掘系统应当提供多种和/或集成的数据挖掘功能。
此外,数据挖掘系统也可以根据所挖掘的知识的粒度或抽象层进行辨别,涉及概化知识(在高抽象层),原始层知识(在原始数据层),或多层知识(考虑若干抽象层)。一种高档的数据挖掘系统应当支持多抽象层的知识发现。
数据挖掘系统还可以分类为挖掘数据规则性(一般浮现的模式)和数据不规则性(如异常或孤立点)这几种。一般地,概念描述、关联分析、分类、预测和聚类挖掘数据规律,将孤立点作为噪声排除。这些措施也能协助检测孤立点。

数据挖掘系统也可以根据所用的数据挖掘技术进行分类。这些技术可以根据顾客交互限度(例如自动系统、交互探查系统、查询驱动系统),或运用的数据分析措施(例如面向数据库或数据仓库的技术、机器学****记录学、可视化、模式辨认、神经网络等)来描述。一种复杂的数据挖掘系统一般采用多种数据挖掘技术,或是执行有效的、集成的技术,这些技术结合某些独立措施的长处。

塞思保罗杰米麦克伦南唐昭辉 斯科特欧俉桑
摘要:微软SQL Server为创立和实行数据挖掘模型工作提供了一种完整的环境。本次教程引用如下四个例子:目的邮购,预测分析,市场篮子,序列簇等来阐释如何使用挖掘模型算法,挖掘模型浏览器,和数据挖掘工具,以上是涉及在本次发布的SQL Server中。
本文献所涉及的信息代表了微软公司对于目前出版日期的讨论的见解。由于微软必须响应不断变化的市场条件,它不应被解释为是一种代表微软的承诺,微软和Microsoft不能保证出版日期后提出的任何资料的精确性。
简介
数据挖掘教程设计形成旨在引领你体验使用微软SQL Server创立数据挖掘模型的过程 。这种数据挖掘算法和工具在SQL Server中可以很容易地建立一种全面的解决方案合用于多种各样项目的实现,涉及市场篮子分析,预测分析,和目的邮购分析。对这些解决方案的描述在教程里有更进一步的细节解释。
SQLServer最明显可见的部分是用于创立和从事数据挖掘模型的工作室。在线分析解决( OLAP)和数据挖掘工具被统一为两个工作环境:商业智能开发工作室和SQLServer管理工作室。使用商业智能开发工作室,你可以在与server断开下建立一种分析服务项目。当项目准备好,你可以发布它到server上。你也可以直接从事服务器工作。SQLServer管理工作室的重要功能是管理服务器
server。背面每一种环境均有详尽细节解释。想获取更多有关从两个环境中选择的信息,请看SQLServer联机丛书中的"在SQLServer 工作室和商业智能开发工作室中选择"。
所有数据挖掘工具中存在于数据挖掘编辑器中。使用这种编辑器,你可以管理挖掘模型,发明新模式,审视模型,比较模型,和在已有模型上形成预测。
在你建立一种挖掘模型后,你会想摸索它,寻找有趣的模式和规则。编辑器中每个挖掘模型视图都被定制为用一种具体算法创立的摸索模型。想理解更多有关视图的信息,请看SQL Server联机丛书中的"查看数据挖掘模型"。
一般你的项目会涉及许多挖掘模型,因此在使用模式创立来预测之前,你要能决定定哪些模式最精确。基于这个因素,编辑器涉及一种模型比较工具挖掘精度的图表标签。使用此工具,你可以比较精确的预测模型和你拟定最佳模式。
为创立数据预测,你将使用DME语言,DMX扩展了SQL语法,涉及了某些创立修改和建立数据预期的命令,有关DMX的具体信息,请看SQLBOL中的"DataMiningExtensions(DMX)Reference"章节。由于建立一种数据预测也许会比较复杂,因此数据挖掘编辑器涉及了一种工具叫做预测查询创立器, 它容许你在一种图形化的界面下编辑DMX查询语句,你也能在该工具中可以查看自动生成的DMXcode。
同样重要的是理解数据挖掘模型的构造自身。建立一种数据模型的核心在于数据挖掘算法。这种算法在你翻阅数据中寻找需要的部分,并且转换这些数据成为一种可操作的数据模型,SQL涉及如下9钟算法:

结合使用这9种数据算法,你可以创立适应大部分商业逻辑的数据挖掘解决方案,本教程将具体的简介这些算法。
某些重要的创立数据挖掘解决方案的环节是来整顿准备那些用于建立数据模型的数据,SQL涉及一种DTS的工作环境以及某些DTS的工具用于清理验证准备数据,有关DTS的更多信息请查看SQLBOL中的"DTSDataMiningTasks andTransformations "。
为论述SQL中的数据挖掘特性,本教程使用了一种新的示例数据库Adventure WorksDW,该数据库涉及在 SQL中它提供OLAP以及数据挖掘的某些实例数据。为了使用这个数据库你需要在安装
SQL的时候选择它。
Adventure 数据库
Adventure Works是在一种叫做"Adventure WorksCycles"虚构的自行车制造公司的基本上而创立的。AW公司生产并向北美,欧洲和亚洲的商业市场销售金属和复合材料的自行车,重要的操作都在WashingtonBothell通过500员工来完毕,,以及某些地区销售部门遍及市场。
Adventure Works通过网络批发和发售她们的产品,本教程中的数据模型实例需要你使用这些网络销售数据作为数据模型。
商业智能开发工作室
商业智能开发工作室是一套设计来创立商务智能工程的工具。由于商业智能开发工作室是创立在IDE环境中的,在该环境中,你可以在与server断开状态下创立一种完整的解决方案。你能想改多少数据挖掘对象就改多少,但在你发布该项目前,这些变化不会反映在服务器上。
如下是在商业智能开发工作室下工作有益的因素:

2你可以将多种数据挖掘技术与SSAS项目集成,在同一种工具中完毕一种全面的解决方案.
.
建立一种SSAS项目是所有商业智能项目的基本,一种SSAS项目独立的建立一种SSAS数据库用于集成多种技术,这个数据库作为数据挖掘模型以及OLAP等技术的基本。你可以使用商业智能建立和修改一种SSAS项目并部署这个项目到一种或多种SSAS服务
如果你在开发一种SSAS项目你也可以使用商业智能开发工作室直接连接数据库,这样你所作的改动可以立即影响到数据库中。
SQLServer管理工作室
SQL Server管理工作室是一种与微软SQLServer协作的管理和脚本工具的集合。这个工作室与商业智能开发工作室的不同,由于你是在一种联机的环境下工作,一旦你保存工作,行为就被传送到服务器上。
在数据被清理并准备好数据挖掘后,大多数和创立苏局挖掘解决方案有关联的工作都在商业智能开发工作室中工作。通过使用商业智能开发工作室,你可以运用迭代过程拟定的给定状况下的最佳模式来发布和测试数据挖掘解决方案。一旦开发商对解决方案满意,就可以将其发布到分析服务服务器。
从这点来看,重点从SQLServer管理工作室的开发转移到了维护和应用。在SQLServer管理工作室中,您可以管理您的数据库和执行某些在商业智能开发工作室中的相似的职能,例如在挖掘模式中查看、创立预测。
数据转换服务
在SQL Server 中数据转换服务(DTS )涉及抽取,转换和加载(简称ETL)工具 。这些工具可用于执行某些数据挖掘中最重要的任务,为数据模型的建立清理和准备数据。在数据挖掘,您一般可以执行反复数据转换清理数据,然后运用这些数据构成挖掘模型。运用DTS中的任务和转移,您可以把数据准备和模型建立结合为一种单一的DTS包。
DTS公司还提供了DTS设计器,以协助您轻松地建立和运营的涉及了所有的任务和转变的软件包。运用DTS设计器,您可以将包发布到服务器上并定期的运营她们。这是非常有用例如,你每周收集数据资料,并向要每次自动执行相似的清洁转换工作。
你可以通过向商业智能开发式的解决方案中分别增长项目来将数据转换项目和分析服务项目结合起来工作,作为商务智能解决方案的一部分。
挖掘模式算法
数据挖掘算法是挖掘模型得以创立的基本。在SQLServer中多种各样的算法可以让你执行多种类型的分析。想理解更多有关算法及其参数调节的信息,请看SQLServer联机丛书中的"数据挖掘算法"。

决策树算法支持分类与回归并且它对预测模型执行有效。用这种算法,你可以预测离散和持续属性。
在建立一种模型期间,该算法检查每个数据集的输入属性是如何影响预测属性的成果,并且用最强的联系的输入属性发明造了一系列的分裂点,称为节点。随着新节点添加到模型中,一种树状构造开始形成。树的顶端节点描述了大多数预测属性的记录分析。每个节点建立把预测属性比作投入的属性的分布状况上。如果输入的属性被视为导致预测属性有助于促成比另一种更好的状态,于是一种新的节点添加到模型。该模型继续增长,直到没有剩余的属性制造分裂提供了一种更好的预测在既有节点。该模型力图找到一种结合的属性和引起在预测属性不成比例分派的状态,因此,您可以预测预测属性的成果。

簇算法采用迭代技术组从涉及相似特性的数据及中进行分类。运用这些组合,您可以探讨的数据,更多地理解存在的关系,这在理论上也许不容易通过偶尔的观测获得。此外,您也可以从算法创立的簇建立预测模型。例如,考虑那些住在同一社区,驱动器相似的车,吃同样的食物,买了类似的版本的产品的那一种群体的人。这是一组数据。另一组也许涉及去相似的餐厅,也有类似的薪金,休假和每年两次以外的地区的人。观测这些集合是如何的分布,可以更好地理解预测属性的成果是如何互相影响的。

老式贝叶斯算法迅速的建立挖掘模型,可用来做分类和预测。它适合各个输入属性状况的也许状况,并考虑到每种预测属性的状况,后来可以在已知的输入属性的基本上来预测预测属性的成果。概率用来生成计算和储存加工过程中的立方体的模型。该算法只支持分立或离散属性,以及它觉得所有输入的属性是独立的。老式贝叶斯算法产生一种简朴的挖掘模型,可以被视为在数据挖掘过程中的一种起点。由于大多数的计算成果是立方体解决的过程中生成的,成果不久返回。这使得该模型成为摸索数据和发现多种不同的输入属性在不同预测属性的状况下是如何分布的一种较好的选择。

时间系算法创立可以用来预测持续变量随着时间的推移从联机分析解决和关系数据源的模式,。例如,您可以使用时间系预测算法历史数据立方体的基本上来预测销售额和利润。
运用该算法,您可以选择一种或多种变量来预测,但她们必须是继续的。对每个模式您只能有一系列案例。一系列的案例等同于一系列位置,诸如谋求销售的长度的日期超过几种月或几年。
一种例子也许涉及了一套变量(例如,销售不同的商店) 。时间系算法可以在预测中使用跨变量。例如,在一种商店的先售也许在预测另一种商店的目前销售时也有用。

联结算法是专门为市场篮子分析而设计的。该算法觉得每个属性/价值配对(如产品/自行车)作为一种项目。一种相集是在单一事务的项目上的一种组合。该算法通过数据集进行扫描为了找到常出目前许多交易的项目集。出目前诸多交易项面前的支持参数拟定被觉得是重要的。例如,频繁项目集也许涉及(性别="男性" ,婚姻状况="已婚",年龄="30-35 ")。每个项目集涉及项目的数量均有个尺寸。在这种状况下,尺寸是3。
常常联结模式在涉及嵌套表的数据集之后工作,如客户名单在一种嵌套的购买列表后。如果一种嵌套表中存在数据集,每个嵌套的建制(如在购买表的产品)被觉得是一种项目。
算法同步找到项目集之间的联系。关联模型的规则看起来像A,B=>C(发生概率的联系),其中有A ,B,C都是频繁项目集。'= >'意味着C是通过A和B预测的。概率阈值是一种在被深思考虑的规则之前拟定了最低概率参数。这些概率在数据挖掘文献中也被称为"信任"。
联结模式同样对交叉销售或协同过滤有用。例如,您可以使用联结模式在她们购物篮项目上来预测一种顾客也许但愿购买的产品。

序列簇分析算法分析有关联导向的涉及离散值系列的数据。一般串联的一连串属性拥有特定的命令(如点击途径)的一组事件。通过度析有关联的事物之间的状况的转变,该算法可以预测有关联的事务将来的状况。
序列簇算法是一种混合型的序列和聚类算法。该算法根据这些关系的相似性将有关系属性的的多重案例分构成片段。该算法的一种典型的使用状况是一种门户网站的网络客户分析。一种门户网站拥有一套附属领域,如新闻,天气,金钱,邮件,和体育。每个网站的客户通过在这些领域中网页点击的顺序联系起来。序列簇算法可以根据她们的导航模式将这些网页客户分构成差不多同质的团队。这些团队是视化的,提供了具体的理解客户如何使用该网站。

在MicrosoftSQLServer分析服务中,神经网络算法通过构建多层感知神经元网络建立分类与回归挖掘模型。类似微软决策树算法的供应商,考虑到每个可预测属性的状况,该算法为马格也许输入属性的状况计算概率。该算法提供案例的过程,反复比较预测分类的状况和已知的实际分类的案件。这些来自第一代的整套案件中从最初的分类错误,被反馈到网络,用来修改网络性能的下一代,等等。后来您可以在输入属性的基本上使用这些概率来预测那些预测属性的成果。然而,该算法和决策树算法其中一种重要区别,是其学****的过程是朝着尽量减少错误的方向优化网络参数,而决策树算法的分裂规则,以求最大限度地发挥信息增益。该算法支持预测的离散和持续属性。

微软线性回归算法是决策树算法的一种特殊构造,由无效分裂(整个回归公式是建立在一种单一根节点上)得到。该算法支持持续属性的预测。

微软逻辑回归算法是神经网络算法的一种特殊构造,通过消除隐蔽层措施来得到。这种算法支持离散和持续属性的预测。


(二) 英语文献
Mining?
Simply stated, dataminingreferstoextractingor"mining" knowledgefromlargeamountsofdata. Thetermisactuallyamisnomer. Remember thatthemining ofgoldfromrocks or sand isreferredtoas goldminingratherthanrockorsand mining. Thus,"datamining"shouldhavebeenmoreappropriatelynamed "knowledgemining fromdata", which isunfortunately somewhatlong."Knowledgemining",a shorterterm,may notreflect theemphasisonmining from largeamounts ,miningis avividterm characterizing theprocessthatfindsa smallset ofpreciousnuggets fromagreatdealof , suchamisnomerwhich carriesboth"data" and"mining" becamea popularchoice. Thereare manyothertermscarryinga similar or slightlydifferent meaning to datamining, suchas knowledge miningfromdatabases,knowledgeextraction,data/ patternanalysis,dataarchaeology, anddatadredging.
Manypeopletreatdata mining as a synonymfor anotherpopularlyusedterm, "KnowledgeDiscoveryin Databases",or ,othersview dataminingassimply anessentialstep intheprocessofknowledgediscoveryin