文档介绍:该【web挖掘与信息抽取系统 】是由【977562398】上传分享,文档一共【103】页,该文档可以免费在线阅读,需要了解更多关于【web挖掘与信息抽取系统 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。汇丰银行需要对不断增长的客户群进行分类,对每种产品找出最有价值的客户……
使营销费用减少了30%
第一页,共103页。
美国国防财务部需要从每年上百万的军火交易中发现可能存在的欺诈现象……
发现可能存在欺诈的交易,节约了大量的调查成本
第二页,共103页。
发现商品组合销售规律,提高销售率
第三页,共103页。
我选择《货币战争》,当当又给我推荐《沉思录》、《资本战争》…
第四页,共103页。
1Web挖掘
第五页,共103页。
狭义
数据挖掘是知识发现(KDD)过程中的一个特定步骤,是用专门算法从数据中抽取模式,然后通过解释和评价转换成最终用户可理解的知识
广义
由于KDD的其他步骤对数据挖掘的运行性能和结果正确性影响很大,因此,通常所说的数据挖掘往往包括KDD的全过程。
第六页,共103页。
一般定义
数据挖掘是从大量的、不完全的有噪声、模糊的、随机的数据集中识别有效的、新颖的、潜在有用的以及最终可理解的模式的过程。
特点
有效性
保证挖掘出来的信息的可靠性;
新颖性
要挖掘那些不能靠直觉发现的信息或知识
潜在有用性
发现的知识有实用价值和可实现
最终可理解性
发现的模式能被用户理解、接受、运用
第七页,共103页。
数据库技术
人工智能
神经网络
统计学
模式识别
知识库系统
知识获取
信息检索
高性能计算
可视化
…
第八页,共103页。
数据收集:通过各种方式广泛收集用户的信息,建立必要的数据库与数据表,为数据挖掘做准备。
数据处理:对收集到的信息进行诸如去噪等操作,从而确保数据能够真实反映待要挖掘的对象。
数据变换:将经过去噪的数据进行一定的格式转换,使其适应数据挖掘系统或数据挖掘软件的处理要求
数据挖掘:利用挖掘方法对数据进行分析,挖掘出需要的各种规则、趋势、类别、模型等
模式评估:对发现的规则、趋势、类别、模型进行评估,从而保证发现的模式的正确性
知识表示
数据
收集
预
处理
格式
转换
数据
挖掘
模式
评估
知识
表示
第九页,共103页。
数据挖掘功能
数据总结
数据压缩
分类模型发现
学科分类
聚类模型发现
主题聚类发现研究热点
关联规则发现
如股市升降与突发事件的关联
序列模式发现
如DNA序列相似性发现
依赖模型发现
如发现A事件发生前一定有B事件发生
异常和趋势发现等
如:发现交易中的欺诈行为,或者根据主题词演变,发现学科研究走向等
第十页,共103页。