1 / 14
文档名称:

大数据分析结课论文.docx

格式:docx   大小:52KB   页数:14页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

大数据分析结课论文.docx

上传人:一花一叶 2019/10/30 文件大小:52 KB

下载得到文件列表

大数据分析结课论文.docx

文档介绍

文档介绍:---------------------------------作者:_____________-----------------------------日期::_____________大数据分析结课论文---------------------------------------------------------------------编制:---------------------------------------------------------------------日期:大数据论文摘要数据发展到今天,已不再是一个新的概念,基于大数据技术的应用也层出不穷,但作为一项发展前景广阔的技术,其很多作用还有待挖掘,比如为人们的生活带来方便,为企业带来更多利益等。现今,互联网上每日产生的数据已由曾经的TB级发展到了今天的PB级、EB级甚至ZB级。如此爆炸性的数据怎样去使用它,又怎样使它拥有不可估量的价值呢?这就需要不断去研究开发,让每天的数据“砂砾”变为“黄金”。那么如何才能将大量的数据存储起来,并加以分析利用呢,大数据技术应运而生。大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。大数据的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化的处理。本文就大数据技术进行了深入探讨,从大数据的定义、特征以及目前的应用情况引入,简述了大数据分析的统计方法、挖掘方法、神经网络方法和基于深度学习框架的方法,并对大数据分析流程和框架、大数据存储模式和服务机制、大数据分析中的多源数据融合技术、高维数据的降维技术、子空间分析、集成分析的处理方法等做了概述。最后,以网络信息安全为例,阐述了该领域的大数据分析过程和方法。关键词大数据;数据挖掘;深度学习;大数据分析;网络信息安全一、,虽然大数据的重要性得到了大家的一致认同,但是关于大数据的定义却众说纷纭。大数据是一个抽象的概念,除去数据量庞大,大数据还有一些其他的特征,这些特征决定了大数据与“海量数据”和“非常大的数据”这些概念之间的不同。一般意义上,大数据是指无法在有限时间内用传统IT技术和软硬件工具对其进行感知、获取、管理、处理和服务的数据集合。科技企业、研究学者、数据分析师和技术顾问们,由于各自的关注点不同,对于大数据有着不同的定义。通过以下定义,或许可以帮助我们更好地理解大数据在社会、经济和技术等方而的深刻内涵。2010年ApacheHadoop组织将大数据定义为,“普通的计算机软件无法在可接受的时间范围内捕捉、管理、处理的规模庞大的数据集”。在此定义的基础上,2011年5月,全球著名咨询机构麦肯锡公司发布了名为“大数据:下一个创新、竞争和生产力的前沿”的报告,在报告中对大数据的定义进行了扩充。大数据是指其大小超出了典型数据库软件的采集、存储、管理和分析等能力的数据集。该定义有两方而内涵:(1)符合大数据标准的数据集大小是变化的,会随着时间推移、技术进步而增长;(2)不同部门符合大数据标准的数据集大小会存在差别。目前,大数据的一般范围是从几个TB到数个PB(数千TB)[2]。根据麦肯锡的定义可以看出,数据集的大小并不是大数据的唯一标准,数据规模不断增长,以及无法依靠传统的数据库技术进行管理,也是大数据的两个重要特征。大数据价值链可分为4个阶段:数据生成、数据采集、数据储存以及数据分析。数据分析是大数据价值链的最后也是最重要的阶段,是大数据价值的实现,是大数据应用的基础,其目的在于提取有用的值,提供论断建议或支持决策,通过对不同领域数据集的分析可能会产生不同级别的潜在价值。在日新月异的IT业界,,即5"V”特征:Volume(容量大)、Variety(种类多)、Velocity(速度快)、难辨识(veracity)和最重要的Value(价值密度低)。Volume(容量大)是指大数据巨大的数据量与数据完整性。可指大数据集合中包含的数据多,也可指组成大数据的网络包含的子数据个数多。Variety(种类多)意味着要在海量、种类繁多的数据间发现其内在关联。大数据中包含的各种数据类型很多,既可包含各种结构化数据类型,又可包含各种非结构化数据类型,乃至其他数据类型。Velocity(速度快)可以理解为更快地满足实时性需求。大数据的结构和内容等都可动态变化,而且变化频率高、速度快、范围广,数据形态具有极大的动态性,处理需要极快的实时性。Veracity(难辨识)可以体现在数据的内容、结构、处理、以及所含子数据间的关联等多方面。大数据中可以包含众多具有不同概率分布的随机数和众多具有不同定义域的模糊数。数间关联模糊不清、并且可能随时随机变化。Value(价值

最近更新

超大直径泥水盾构接收关键技术 3页

2025年四川文化产业职业学院单招职业倾向性测.. 63页

2025年四川文化产业职业学院单招职业倾向性测.. 62页

2025年四川文化产业职业学院单招职业适应性测.. 61页

企业司机聘用及管理规定合同 7页

2025年六年级数学下册典型例题系列之第四单元.. 19页

2025年六年级数学上册《分数乘法》教学反思(.. 12页

2025年四川文化艺术学院单招职业适应性测试题.. 61页

2025年三年级自编关于动物的童话故事 5页

资管新规下九台农商银行理财业务发展策略优化.. 3页

资源强依赖地区产业转型中的投融资政策研究—.. 3页

2025年四川文轩职业学院单招职业适应性测试题.. 64页

2025年四川机电职业技术学院单招职业技能测试.. 62页

2025年四川水利职业技术学院单招职业适应性测.. 63页

贫困县域森林旅游发展的农户适应性研究——以.. 5页

2025年四川汽车职业技术学院单招职业技能测试.. 62页

2025年电气师工作总结模板 8页

账龄分析视角下的应收账款坏账计提研究——基.. 4页

企业劳动合同安全条款范本 6页

财务视角下贵糖股份发展问题探讨 3页

2025年电影长津湖抖音的文案 5页

豪斯翻译质量模型在企业年报汉英翻译中的应用.. 3页

2025年四川电子机械职业技术学院单招职业适应.. 65页

2025年单招适应性测试题库a4版 63页

2025年校园数据治理服务方案 20页

2025年农民工工资专用账户三方协议 4页

初中语文名师工作室2024年工作计划 4页

XX工程公司两会期间安全工作保障措施(6页) 6页

三味蒺藜散在免疫调节中的应用研究 24页

soul蒙面闲聊问题合集 1页