1 / 73
文档名称:

第8章大数据分析.ppt

格式:ppt   大小:1,246KB   页数:73页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

第8章大数据分析.ppt

上传人:neryka98 2017/8/4 文件大小:1.22 MB

下载得到文件列表

第8章大数据分析.ppt

相关文档

文档介绍

文档介绍:大数据分析
第8章
目录
大数据概述
推荐系统
推荐系统设计实践
数据预处理实现及结果分析
实验结果及其分析
本章小结
大数据概述
大数据(Big Data, Mega Data),指的是那些需要利用新处理方法才能通过数据体现出更强决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据一般具有4V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。
大数据技术的战略意义在于对含有意义的数据进行专业化处理,进而体现庞大数据背后的价值。
从技术上看,大数据与云计算密不可分。
适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。
大数据的特点
数据分析需要从纷繁复杂的数据中发现规律并提取新的知识,是大数据价值挖掘的关键。
经过数据的计算和处理后,所得的数据便成为数据分析的原始数据,根据所需数据的应用需求对数据进行进一步的处理和分析,最终找到数据内部隐藏的规律或者知识,从而体现数据的真正价值。
大数据的特点包括:
数据体量巨大
流动速度快
数据种类繁多
价值密度低
大数据的传统处理方法
统计分析是运用统计方法及与分析对象有关的知识,从定量与定性的结合上进行的研究活动。
统计分析是继统计设计、统计调查、统计整理之后,通过分析从而达到对研究对象更为深刻的认识。
统计分析是在一定的选题下,集分析方案的设计、资料的搜集和整理而展开的研究活动。系统、完善的资料是统计分析的必要条件。
统计分析可以分为5个步骤:
描述要分析的数据的性质。
研究基础群体的数据关系。
创建一个模型,总结数据与基础群体的联系。
证明(或否定)该模型的有效性。
采用预测分析来预测将来的趋势。
大数据分析的机器学习方法
聚类分析
聚类是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集(Subset),这样让在同一个子集中的成员对象都有相似的一些属性,常见的包括在坐标系中更加短的空间距离等。
结构性聚类:利用以前成功使用过的聚类器进行分类
结构性算法可以从上至下或者从下至上双向进行计算。从下至上算法从每个对象作为单独分类开始,不断融合其中相近的对象。而从上至下算法则是把所有对象作为一个整体分类,然后逐渐分小。
分割式聚类算法,是一次性确定要产生的类别。
基于密度的聚类算法,是为了挖掘有任意形状特性的类别而发明的。此算法把一个类别视为数据集中大于某阈值的一个区域。
分散性聚类:一次确定所有分类。K-means算法表示以空间中k个点为中心进行聚类,对最靠近他们的对象归类。算法归纳为:
选择聚类的个数k。
任意产生k个聚类,然后确定聚类中心,或者直接生成k个中心。
对每个点确定其聚类中心点。
再计算其聚类新中心。
重复以上步骤直到满足收敛要求(通常就是确定的中心点不再改变)。
该算法的最大优势在于简洁和快速。
劣势在于对于一些结果并不能够满足需要,因为结果往往需要随机点的选择非常巧合。
神经网络
神经网络是一种由大量的节点(或称“神经元”、“单元”)和之间相互联接构成的运算模型。
每个节点代表一种特定的输出函数,称为激励函数(Activation Function)。
每两个节点间的连接都代表一个对于通过该连接信号的加权值,称之为权重(Weight),这相当于人工神经网络的记忆。
网络的输出随着网络的连接方式、权重值和激励函数的不同而不同。
神经网络是一个能够学习,能够总结归纳的系统,也就是说它能够通过已知数据的实验运用来学习和归纳总结。
人工神经网络通过对局部情况的对照比较(而这些比较是基于不同情况下的自动学习和解决实际问题的复杂性所决定的),它能够推理产生一个可以自动识别的系统。
常见的多层结构的前馈网络(Multilayer work)由三部分组成:
输入层(Input Layer),众多神经元(Neuron)接受大量非线形输入信息。输入的信息称为输入向量。
输出层(Output Layer),信息在神经元链接中传输、分析、权衡,形成输出结果。输出的信息称为输出向量。
隐藏层(Hidden Layer),简称“隐层”,是输入层和输出层之间众多神经元和链接组成的各个层面。隐层可以有多层,习惯上会用一层。隐层的节点(神经元)数目不定,~。
决策树
决策树(Decision Tree)由一个决策图和可能出现的结果(包括资源成本和风险)构成,用来创建到达目标的规划。
决策树是一个利用像树一样的图形或决策模型进行决策支持的工具。
决策树经常在运筹学中使用,特别是在决策分析中。
决策树法的

最近更新

关于幼儿园年度工作计划模板汇总(33篇) 126页

序列活性污泥法处理有机有毒污水的技术要点 3页

关于教育工作的心得体会(30篇) 74页

2025年新年工作寄语 16页

广东经济问题调查研究工作逐步展开 3页

写字楼租赁合同集锦(28篇) 234页

冬奥会闭幕式心得体会400字(30篇) 31页

并联电容器组分闸操作过电压的仿真分析 3页

并发Java程序动态分析及重演技术研究 3页

初中教师个人师德计划(33篇) 92页

平面磨削时工件弹出的事故分析 3页

2025年新学期迎视导汇报材料参考 6页

2025年新学期老师对孩子的寄语 16页

2025年职业技能鉴定考核指导手册试题 13页

培训机构年度活动计划书(汇总20篇) 68页

大学军训通讯稿范文(14篇) 19页

2025年职业健康安全绩效测量和监视程序 14页

大学生开学典礼演讲稿(28篇) 67页

奶奶的一封信作文500字(33篇) 42页

学会不抱怨读书心得(6篇) 9页

学校分餐错峰就餐制度(21篇) 30页

学校教务教育工作计划模板(3篇) 9页

小学道德与法治六年级下册第一单元《完善自我.. 5页

风险和机遇的识别、应对措施和评价表 7页

个人转股协议书范本精选 4页

桥式起重机检修方案 43页

免费个人简历模板下载免费 2页

机械原理-凸轮设计(偏置直动滚子从动件盘形凸.. 16页

【东宝仲巴仁波切普巴金刚祈请简轨及传承缘起.. 15页

《骆玉明《简明中国文学史》笔记.》 51页