1 / 3
文档名称:

数据挖掘小文章.docx

格式:docx   大小:23KB   页数:3页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据挖掘小文章.docx

上传人:花开一叶 2019/1/21 文件大小:23 KB

下载得到文件列表

数据挖掘小文章.docx

相关文档

文档介绍

文档介绍:数据挖掘数据挖掘是指从大量的数据中提取有趣的模式或知识,包括知识发现、知识提取、数据/模式分析、数据考古、商务智能等。把数据挖掘分开来看,就是“数据”和“挖掘”,数据挖掘的地方有关系数据库、数据仓库、交易数据库、数据流和传感器数据、时间数据库、社交网络数据库、异构数据库、空间数据库、文本数据库等。这些是存放数据的地方,数据挖掘可以从这些地方挖。而数据挖掘,又不是仅仅只是把数据找出来,数据挖掘包括挖掘数据的特征化和区分(汇总目标类、目标类与对比类比较),关联和相关分析(频繁模式),分类和预测(有监督学****预测类标号,预测未知数值,通过决策树、支持向量机等方法),聚类学****无监督学****最大化类内部的相似性或者最小化类之间的相似性),离群点分析(噪声或异常),时序(序列模式、趋势和演变分析),网络分析(图挖掘、信息网络挖掘等)。我的研究生大的研究方向是人工智能,在这个方向上经常会听到数据挖掘这类的专业名词,仔细分析数据挖掘所用的一些技术,包括机器学****模式识别、统计、数据可视化、数据库、高性能计算等等,这些都跟人工智能有关系,实际上,数据挖掘已经渗透到计算机的各个研究方向,也已经渗透到各行各业,金融、零售业、电信业、科学与工程、生物、多媒体等等,任何一个方向都需要以数据为前提的,现今特别火热的一个词就是大数据,而数据量的庞大、复杂仅仅是一个前提,如何把这样大量的数据挖掘出来,找到自己有用的部分,才是最重要的。目前数据挖掘已经有新的概念,在现实世界中,针对客观存在的具有海量性、不确定性、不完全性的量的、质的、复杂形态的知识源,挖掘其中潜在的、先前未知的、用户感兴趣的、最终可被用户理解的模式的非平凡提取过程。数据挖掘研究的动态与趋向包括:以知识发现的任务描述、知识评价与知识表示为主线,有效的知识发现算法为中心。这是在相当长的一段时间内保持的主流与基调。(1)原有理论方法的深化与拓展;(2)复杂类型(系统)数据挖掘、网络信息挖掘成为热点;(3)新技术与方法的引入(其它学科领域的渗透);(4)理论融合交叉性研究;(5)基础理论研究;(6)大数据处理成为当今重大研究热点。正如上文,我提到数据挖掘,就不得不提一句大数据。对于大数据目前有不同的定义。大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘,但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。随着云时代的来临,大数据(Bigdata)也吸引了越来越多的关注。《著云台》的分析师团队认为,大数据(Bigdata)通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数