1 / 2
文档名称:

学科前沿讲座心得.docx

格式:docx   大小:11KB   页数:2页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

学科前沿讲座心得.docx

上传人:niupai11 2022/6/16 文件大小:11 KB

下载得到文件列表

学科前沿讲座心得.docx

文档介绍

文档介绍:学科前沿讲座—数据挖掘
近年来,大数据、云计算等非常火热。听了老师所讲的关于《数据挖掘》这块的相关知 识讲解,颇有感受。下面就是我听过讲座之后以及查阅资料之后,对数据挖掘的一些认识。
随着数据库技术和计算机网络的迅速发展以及数据库管理系学科前沿讲座—数据挖掘
近年来,大数据、云计算等非常火热。听了老师所讲的关于《数据挖掘》这块的相关知 识讲解,颇有感受。下面就是我听过讲座之后以及查阅资料之后,对数据挖掘的一些认识。
随着数据库技术和计算机网络的迅速发展以及数据库管理系统的广泛应用,人们积累的 数据越来越多,而数据挖掘就是在这样的背景下产生的。简单的说,数据挖掘就是从大量数 据中提取或“挖掘”出潜在的、有价值的知识、模型或者规则的过程。作为一类深层次的数 据分析方法,它利用了数据库、人工智能和数理统计等方面的技术。
在听讲座时,老师主要讲解了一下数据挖掘中的有关关联规则、聚类、分类的方法以及 相关的算法。老师在讲关联规则时,提到了关于“尿布与啤酒”的故事。一般,按照我们常 规思维,这两种东西根本就是两个毫无关联的商品,但是借助数据挖掘技术对大量交易数据 进行挖掘之后,却可以寻求到这一有价值的规律。从一定程度上可以表明数据挖掘技术的巨 大价值。
另外还讲到了关联规则算法 Apriori算法。Apriori算法使用频繁项集的先验知识,
使用一种称作逐层搜索的迭代方法,k项集用于探索(k+1)项集。首先,通过扫描事务(交 易)记录,找出所有的频繁1项集,该集合记做L1,然后利用L1找频繁2项集的集合L2, L2找L3,如此下去,直到不能再找到任何频繁k项集。最后再在所有的频繁集中找出强规 则,即产生用户感兴趣的关联规则。其中,Apriori算法具有这样一条性质:任一频繁项集 的所有非空子集也必须是频繁的。因为假如P(I)〈最小支持度阈值,当有元素A添加到I 中时,结果项集(API)不可能比I出现次数更多。因此AQI也不是频繁的。
说到数据挖掘,应该了解数据挖掘包含哪些步骤?第一,要确定研究对象,这是数据挖 掘的重要一步。数据挖掘的最后结是不可预测的,但是要探索的问题是很明确的。第二,数 据准备阶段。具体包含以下步骤:
1) 数据的选择,即搜索所有与业务对象有关的内部和外部数据信息,并从中选择出 适用于数据挖掘应用的数据
2) 数据的预处理,即研究诗句的质量,为进一步分析做准备,并确定将要进行的挖 掘操作的种类
3) 数据的转换,将数据转换成一个分析模型,这个分析模型是针对挖掘算法建立的, 能否建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。
第三,数据挖掘阶段。即对经过预处理的数据进行挖掘,包括分析和预测,关联分析以及聚 类分析相关算法等。第四,结果分析阶段,解释并对结果进行评估,通常使用到可视化技术。 第五,知识的同化,将分析所得到的知识集成到业务信息系统的组织结构中去,从而得到有 价值的信息。
通过上网查询资料,了解到数据挖掘有一下七种常用方法:
分类。分类是找出数据库中一组数据对象的共同特点并按照分类模式将其划分为不 同的类,其目的是通过分类模型,将数据库中的数据项映射到某个给定的类别,使 用到 KNN 算法。它可以应用到客户的分类、客户的属性和特征分析、客户满意度分 析、客户的购买趋势预测等,如一个汽车零售商将客户