文档介绍:大数据分析
第8章
目录
大数据概述
推荐系统
推荐系统设计实践
数据预处理实现及结果分析
实验结果及其分析
本章小结
大数据概述
大数据(Big Data, Mega Data),指的是那些需要利用新处理方法才能通过数据体现出更强决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据一般具有4V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。
大数据技术的战略意义在于对含有意义的数据进行专业化处理,进而体现庞大数据背后的价值。
从技术上看,大数据与云计算密不可分。
适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。
大数据的特点
数据分析需要从纷繁复杂的数据中发现规律并提取新的知识,是大数据价值挖掘的关键。
经过数据的计算和处理后,所得的数据便成为数据分析的原始数据,根据所需数据的应用需求对数据进行进一步的处理和分析,最终找到数据内部隐藏的规律或者知识,从而体现数据的真正价值。
大数据的特点包括:
数据体量巨大
流动速度快
数据种类繁多
价值密度低
大数据的传统处理方法
统计分析是运用统计方法及与分析对象有关的知识,从定量与定性的结合上进行的研究活动。
统计分析是继统计设计、统计调查、统计整理之后,通过分析从而达到对研究对象更为深刻的认识。
统计分析是在一定的选题下,集分析方案的设计、资料的搜集和整理而展开的研究活动。系统、完善的资料是统计分析的必要条件。
统计分析可以分为5个步骤:
描述要分析的数据的性质。
研究基础群体的数据关系。
创建一个模型,总结数据与基础群体的联系。
证明(或否定)该模型的有效性。
采用预测分析来预测将来的趋势。
大数据分析的机器学习方法
聚类分析
聚类是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集(Subset),这样让在同一个子集中的成员对象都有相似的一些属性,常见的包括在坐标系中更加短的空间距离等。
结构性聚类:利用以前成功使用过的聚类器进行分类
结构性算法可以从上至下或者从下至上双向进行计算。从下至上算法从每个对象作为单独分类开始,不断融合其中相近的对象。而从上至下算法则是把所有对象作为一个整体分类,然后逐渐分小。
分割式聚类算法,是一次性确定要产生的类别。
基于密度的聚类算法,是为了挖掘有任意形状特性的类别而发明的。此算法把一个类别视为数据集中大于某阈值的一个区域。
分散性聚类:一次确定所有分类。K-means算法表示以空间中k个点为中心进行聚类,对最靠近他们的对象归类。算法归纳为:
选择聚类的个数k。
任意产生k个聚类,然后确定聚类中心,或者直接生成k个中心。
对每个点确定其聚类中心点。
再计算其聚类新中心。
重复以上步骤直到满足收敛要求(通常就是确定的中心点不再改变)。
该算法的最大优势在于简洁和快速。
劣势在于对于一些结果并不能够满足需要,因为结果往往需要随机点的选择非常巧合。
神经网络
神经网络是一种由大量的节点(或称“神经元”、“单元”)和之间相互联接构成的运算模型。
每个节点代表一种特定的输出函数,称为激励函数(Activation Function)。
每两个节点间的连接都代表一个对于通过该连接信号的加权值,称之为权重(Weight),这相当于人工神经网络的记忆。
网络的输出随着网络的连接方式、权重值和激励函数的不同而不同。
神经网络是一个能够学习,能够总结归纳的系统,也就是说它能够通过已知数据的实验运用来学习和归纳总结。
人工神经网络通过对局部情况的对照比较(而这些比较是基于不同情况下的自动学习和解决实际问题的复杂性所决定的),它能够推理产生一个可以自动识别的系统。
常见的多层结构的前馈网络(Multilayer work)由三部分组成:
输入层(Input Layer),众多神经元(Neuron)接受大量非线形输入信息。输入的信息称为输入向量。
输出层(Output Layer),信息在神经元链接中传输、分析、权衡,形成输出结果。输出的信息称为输出向量。
隐藏层(Hidden Layer),简称“隐层”,是输入层和输出层之间众多神经元和链接组成的各个层面。隐层可以有多层,习惯上会用一层。隐层的节点(神经元)数目不定,~。
决策树
决策树(Decision Tree)由一个决策图和可能出现的结果(包括资源成本和风险)构成,用来创建到达目标的规划。
决策树是一个利用像树一样的图形或决策模型进行决策支持的工具。
决策树经常在运筹学中使用,特别是在决策分析中。
决策树法的