文档介绍::..学号:200910137216 成绩: 课程论丈院系 信息工程学部专业 软件工程 年级班 09级⑵班 课程名称 数据仓库与数据挖掘论文题目数据挖掘在网络领域的应用姓名 土涛 指导教师 杨艳霞2012年10月27日课程论文评分表评分标准:1、 字数要求:3000字以上。2、 评分标准:100分主要分为:论文结构50分;语言组织20分;创新10分;使用价值20分。(1)论文结构:,内容组织有序:40、50分;,内容组织一般:30~39分;,内容组织不合理:30分以下。(2)语言组织:20分A•语言简练,通顺。16~20分;,基本通顺。12~15分;,有错字。11分以下。(3)创新:,有较多的创新见解:8~10分;,冇少数的创新见解:4、7分;,无创新:0〜3分。(4)使用价值:20分0论文有较高的使用价值,能够解决实际问题;16^20分;1论文使用价值一般,有一定的参考价值;旷15分;2论文没冇使用价值:0〜7分。教师评分:::::得分 得分 得分 得分 总分: 数据挖掘在网络领域的应用摘要:社会的发展进入了网络信息时代,各种形式的数据海量产生,在这些数据的背后隐藏这许多重要的信息,如何从这些数据中找出某种规律,发现有用信息,越来越受到关注。为了适应信息处理新需求和社会发展各方面的迫切需要而发展起来一种新的信息分析技术,这种局势称为数据挖掘。数据挖掘就是从大量的,不完全的,有噪声的,模糊的,随机的实际应用数据中,提取隐含在其中的,人们事先不知道的,但是乂潜在有用的信息和知识的过程。关键字:数据挖掘;知识获取;数据库;(DataMining)就是从大量的、不完全的、冇噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。与数据挖掘相近的同义词冇数据融合、数据分析和决策支持等。这个定义包括好几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。简而言之,数据挖掘其实是一类深层次的数据分析方法。数据分析本身已经有很多年的历史,只不过在过去数据收集和分析的目的是用于科学研究,另外,由于当时计算能力的限制,对大数据量进行分析的复杂数据分析方法受到很大限制。现在,出于各行业业务自动化的实现,商业领域产生了大量的业务数据,这些数据不再是为了分析的目的而收集的,而是曲于纯机会的(Opportunistic)商业运作而产生。分析这些数据也不再是单纯为了研究的需要,更主要是为商业决策提供真正有价值的信息,进而获得利润。但所有企业面临的一个共同问题是:企业数拯量非常大,而其中真正有价值的信息却很少,因此从大量的数据中经过深层分析,获得有利于商业运作、提高竞争力的信息,就像从矿石中淘金一样,数据挖掘也因此而得名。因此,数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证己知的规律性,并进一步将其模型化的先进有效的方法。,即可以来自社会科学,乂可以来自自然科学产牛的数据,还可以是卫星观测得到的数据。数据形式和结构也各不相同,可以是传统的关系数据库,可以是面向对彖的高级数据库系统,也可以是面向特殊应用的数据库,如空间数据库、时序数据库、文本数据库和多媒体数据库等,、有意义的知识。它的任务主要是分类、预测、时间序列模式、聚类分析、关联分析预测和偏差分析等。。2预测预测就是通过对历史数据的分析找出规律,并建立模型,通过模型对未来数据的种类和特征进行分析。3时间序列模式时间序列模式就是根据数据对象随时间变化的规律或趋势来预测将来的值。聚类分析聚类分析是在没有给定划分类的情况下,根据数据信息的相似度进行数据聚集的一种方法。关联分析预测关联分析就是对大量的数据进行分析,从中发现满足一定支持度和可信度的数据项之间的联系规则。6偏差分析偏差分析就是通过对数据库中的