文档介绍:数据挖掘介绍数据挖掘介绍什么是数据挖掘当今数据库的容量已经达到上万亿的水平( T) --- 1,000,000,000,000 个字节。在这些大量数据的背后隐藏了很多具有决策意义的信息, 那么怎么得到这些" 知识" 呢?也就是怎样通过一颗颗的树木了解到整个森林的情况? 计算机科学对这个问题给出的最新回答就是:数据挖掘,在" 数据矿山" 中找到蕴藏的" 知识金块" ,帮助企业减少不必要投资的同时提高资金回报。数据挖掘给企业带来的潜在的投资回报几乎是无止境的。世界范围内具有创新性的公司都开始采用数据挖掘技术来判断哪些是他们的最有价值客户、重新制定他们的产品推广策略( 把产品推广给最需要他们的人),以用最小的花费得到最好的销售。数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程,这些模型和关系可以用来做出预测。数据挖掘的第一步是描述数据--- 计算统计变量(比如平均值、均方差等), 再用图表或图片直观的表示出来, 进而可以看出一些变量之间的相关性( 比如有一些值经常同时出现)。选择正确的数据源对整个数据挖掘项目的成败至关重要, 在后面数据挖掘的步骤中我们会着重强调这一点。单单是数据描述并不能为人们制订行动计划提供足够的依据, 你必须用你的这些历史数据建立一个预言模型, 然后再用另外一些数据对这个模型进行测试。一个好的模型没必要与数据库中的数据 100% 的相符( 城市交通图也不是完全的实际交通线路的等比缩小), 但他在你做决策时是一个很好的指南和依据。最后一步是验证你的模型。比如你用所有对你的产品推广计划做出回应的人的数据库做了一个模型, 来预测什么样的人会对你的产品感兴趣。你能在得到这个模型后就直接利用这个模型做出决策或采取行动吗?还是更稳妥一点先对一小部分客户做一个实际的测试, 然后再决定? 数据挖掘:不能干什么数据挖掘它无法告诉你某个模型对你的企业的实际价值。而且数据挖掘中得到的模型必须要在现实生活中进行验证。注意数据挖掘中得到的预言模型并不会告诉你一个人为什么会做一件事、采取某个行动, 他只会告诉你他会这样做, 为什么要人去考虑。比如, 数据挖掘可能会告诉你, 如果这个人是男的、年收入在 5万到 6 万之间, 那么他可能会买你的商品/ 服务。你可能会利用这条规则, 集中向这类人推销你的商品而从中获益, 但是数据挖掘工具不会告诉你他们为什么会买你的东西, 也不能保证所有符合这条规则的人都会买。为了保证数据挖掘结果的价值, 你自己必须了解你的数据, 这一点至关重要。输入数据库中的异常数据、不相关的字段或互相冲突的字段(比如年龄和生日不一致)、数据的编码方式等都会对数据挖掘输出结果的质量产生影响。虽然一些算法自身会对上面提到的这些问题做一些考虑,但让算法自己做所有这些决定是不明智的。数据挖掘不会在缺乏指导的情况下自动的发现模型。你不能这样对数据挖掘工具说," 帮我提高直接邮件推销的响应率", 你应该让数据挖掘工具找(1) 对你的推销回应的人,或(2) 即回应又做了大量订单的人的特征。在数据挖掘中寻找这两种模型是很不相同的。虽然数据挖掘工具使你不必再掌握艰深的统计分析技术, 但你仍然需要知道你所选用的数据挖掘工具是如何工作的, 他所采用的算法的原理是什么。你所选用的技术和优化方法会对你的模型的准确度和生成速度产生很大影响。数据挖掘永远不会