1 / 8
文档名称:

关于大数据基本概念及数据挖掘的算法.docx

格式:docx   大小:107KB   页数:8页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

关于大数据基本概念及数据挖掘的算法.docx

上传人:fbvxjo6 2017/2/17 文件大小:107 KB

下载得到文件列表

关于大数据基本概念及数据挖掘的算法.docx

文档介绍

文档介绍:关于大数据基本概念及数据挖掘的算法一、大数据基本概念大数据 Big Data 是指大小超出了常用的软件工具在运行时间内可以承受的收集, 管理和处理数据能力的数据集; 大数据是目前存储模式与能力、计算模式与能力不能满足存储与处理现有数据集规模产生的相对概念。大数据的预处理主要完成对已接收数据的辨析、抽取、清洗等操作。(1) 抽取:因获取的数据可能具有多种结构和类型,数据抽取过程可以帮助我们将这些复杂的数据转化为单一的或者便于处理的构型,以达到快速分析处理的目的。(2) 清洗:对于大数据,并不全是有价值的,有些数据并不是我们所关心的内容,而另一些数据则是完全错误的干扰项,因此要对数据通过过滤“去噪”从而提取出有效数据。大数据带来的数学问题在数学上来看, 计算机中存在不断变大的数据集, 不存在绝对的大数据, 计算机中的所有数据集都是有限集合。大数据采样——把大数据变小、找到与算法相适应的极小样本集、采样对算法误差的影响大数据表示——表示决定存储、表示影响算法效率大数据不一致问题——导致算法失效和无解、如何消解不一致大数据中的超高维问题——超高维导致数据稀疏、算法复杂度增加大数据中的不确定维问题——多维度数据并存、按任务定维难大数据中的不适定性问题——高维导致问题的解太多难以抉择大数据的特征稠密与稀疏共存:局部稠密与全局稀疏冗余与缺失并在:大量冗余与局部缺失显式与隐式均有:大量显式与丰富隐式静态与动态忽现:动态演进与静态关联多元与异质共处:多元多变与异质异性量大与可用矛盾:量大低值与可用稀少目前大数据的外延大数据规模大小是一个不断演化的指标: 当前任务处理的单一的数据集, 从数十 TB 到十几 PB 级的数据规模(TB ? PB ? EB? ZB) 处理大数据的可等待的合理时间依赖任务的目标: 地震数据预测要求在几分钟内才有效、气象数据应该在小时级别、失联飞机数据处理要在 7 天之内、数据挖掘一般要求在 12 小时内二、大数据悖论大数据已被定义为科学探索的第四范式。继几千年前的实验科学、数百年前的理论科学和数十年前的计算科学之后,当今的数据爆炸孕育了数据密集型科学,将理论、实验和计算仿真等范式统一起来。大数据已被誉为“非竞争性”生产要素。大数据具有“取之不尽, 用之不竭”的特性, 在不断的再利用、重组和扩展中持续释放其潜在价值, 在广泛的公开、共享中不断创造着新的财富。根源在于,大数据的价值在于预测未知领域、非特定因素的未来趋势, 在于破解长期的、普遍的社会难题。而目前的大数据技术和应用, 依然局限于历史和实时数据的关联分析,局限于满足短线的、特定的市场需求。解决悖论的过程,恰恰是理论和方法应运而生的过程。而人们试图解决悖论的努力, 正好是大数据落地生根的推动力。方法论缺位自 2008 年《自然》杂志推出“大数据”专刊以来,大数据概念就从学术大讨论,转向了企业的数字化转型,进而上升到“开放政府数据”的战略布局。然而,单纯的数量上的规模庞大,并不能轻易地将大数据与以往的“海量数据”、“超大规模数据”等区别开,因为三者均没有设置数量级等门槛。方法论缺位是最大的障碍。大数据发展的核心动力源于人们测量、记录和分析世界的渴望,满足这些渴望需要数据、技术和思维三大要素。在计算技术、通信技术日益成熟的今天, 在廉价的、便捷的数字化存储普及的当下, 数据无处不在, 技术正以