文档介绍:、预处理、存储、挖掘或分析、可视化五个关键环节,挖掘被认为是核心。(Datamining),大小公司对数据挖掘的需求有50多个方面(来源见参考资料):1、数据统计分析2、预测预警模型3、数据信息阐释4、数据采集评估5、数据加工仓库6、品类数据分析7、销售数据分析8、网络数据分析9、流量数据分析10、交易数据分析11、媒体数据分析12、情报数据分析13、金融产品设计14、日常数据分析15、总裁万事通16、数据变化趋势17、预测预警模型18、运营数据分析19、商业机遇挖掘20、风险数据分析21、缺陷信息挖掘22、决策数据支持23、运营优化与成本控制24、质量控制与预测预警25、系统工程数学技术26、用户行为分析/客户需求模型27、产品销售预测(热销特征)28、商场整体利润最大化系统设计29、市场数据分析30、综合数据关联系统设计31、行业/企业指标设计32、企业发展关键点分析33、资金链管理设计与风险控制34、用户需求挖掘35、产品数据分析36、销售数据分析37、异常数据分析38、数学规划与数学方案39、数据实验模拟40、数学建模与分析41、呼叫中心数据分析42、贸易/进出口数据分析43、海量数据分析系统设计、关键技术研究44、数据清洗、分析、建模、调试、优化45、数据挖掘算法的分析研究、建模、实验模拟46、组织机构运营监测、评估、预测预警47、经济数据分析、预测、预警48、金融数据分析、预测、预警49、科研数学建模与数据分析:社会科学,自然科学,医药,农学,计算机,工程,信息,军事,图书情报等50、数据指标开发、分析与管理51、产品数据挖掘与分析52、商业数学与数据技术53、故障预测预警技术54、数据自动分析技术55、泛工具分析56、互译57、指数化其中,互译与指数化是数据挖掘除计算机技术之外最核心的两大技术。:是机器学****算法中的一种分类决策树算法,其核心算法是ID3算法。-means算法:是一种聚类算法。:一种监督式学****的方法,:是一种最有影响的挖掘布尔关联规则频繁项集的算法。:最大期望值法。:是google算法的重要内容。:是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器然后把弱分类器集合起来,构成一个更强的最终分类器。:是一个理论上比较成熟的的方法,也是最简单的机器学****方法之一。:在众多分类方法中,应用最广泛的有决策树模型和朴素贝叶斯(NaiveBayes):分类与回归树,在分类树下面有两个关键的思想,第一个是关于递归