文档介绍:摘要的三个方面:在比较现有异常数据检测方法的基础上,提出了运用自组织映射检作为信息时代关键性资源之一的数据,其质量问题尤其是异常数据的出现对智能数据分析的结果产生越来越重要的影响。异常数据是数据集中与众不同的数据,它们不符合惯常的数据模式,其产生机制与大多数数据不同。异常数据包括两种类型,第一种是真实异常数据,包含着从应用角度看非常有意义的知簘坏诙质窃胍粢斐J荩遣杉蚣锹脊讨械拇砦笠鸬模误导分析的结果。目前对于异常数据的态度主要有两种,一是拒绝,从数据集中删除全部异常数据,优点是可以减少异常数据的误导作用,但会丢失有意义的信息;二是保留,保留所有异常数据,不会丢失任何信息,但分析结果会受到异常鉴于目前对异常数据的研究主要集中在检测方法的探讨上,对其缺乏完整的管理思路,本文提出了智能数据分析中异常数据的集成化管理方法,对异常数据的检测阶段、区分阶段以及从真实异常数据中发现知识阶段分别提出了对应的处理方法,为了使异常数据的集成化管理方法更加高效,也提出了控制噪音异常数’掘产生的方法。本文的研究目的是构建异常数据的集成化管理方法,主要包括下列有机结合测异常数据的方法;在自组织映射检测结果的基础上,提出了两个互补的结合领域知识区分不同类型异常数据的方法;运用交互式方法从真实异常数掘中发现知为了便于理解本文提出的异常数据的集成化管理方法,结合检测视神经疾病的计算机视频视野测试方法进行了分析。关键词:异常数据,集成化管理,自组织映射,智能数据分析数据的误导。识的方法。智能数据分析中异常数据的集成化管理方法复口人学博十学位论文
复咀人学博貉宦畚智能数据分析中异常数据的集成化管理方法研究甀甌..甌’..琲籔籔猦甀疭瓵痶瑃瑃縤甶篒,
塑堂茎塑坌塑±墨堂墼塑塑叁壁些笪墨查些型星里奎兰堡主堂堡堡兰,.篛,,..
导第一章论能不断增强,网络技术的发展使得数据访问更加便捷,广泛使用的个人计算机及计算方法越来越成熟,如入工神经网络、贝叶斯网络、决策树、基因算法、模式其次,将异常数据区分出来非常困难,虽然有些异常数据可能是测量和记录问题的提出信息时代各行各业积累的数据急剧地膨胀,同时信息技术的飞速发展为数据的快速处理打下了坚实的基础,数据处理设备和存储设备的价格不断下降,其功移动计算设备也使数据的采集更加容易,诸如在线分析处理之类的技术可以快速地从数据仓库中检索出数据。”。此外,许多从海量数据中抽取信息的先进识别等庑┘际醯慕轿V悄苁莘治龅於肆己玫幕在智能数据分析中,数据的质量问题越来越突出,数据是组织的关键性资源的观点已得到广泛的认同,有高质量的数据才能更好地进行决策“⋯.在大规模数据分析中获得清洁可靠的数据是一项困难的工作,其成本也很高,大约要花费实际应用中产生的数据有许多质量问题。首先,多种原因会产生异常数据,异常数据是数据集中与众不同的数据,它们不符合惯常的数据模式,其产生机制与大多数数据不同,产生异常数据的原因包括:不完美的数据采集设备、数据输入有误、数据传输错误、测量单位混乱、灵敏度不够等:手工输入过程中丢失数据;;即使数据是精确完整和一致的,但实时性不够,这种情况在实时性应用中最容易出现,如外汇买卖、股票交易、过程控制等;貌似合法交易的诈骗活动,如信用卡’诈骗、电信话费的恶意拖欠过程中的错误引起的,但有些异常数据却代表着有趣的现象,蕴涵着从应用角度由于错误的数据或低质量的数据会误导分析的结果,许多专门从事数据清洗项目中%到%的资源㈣。第一,看非常有意义的知识。第二,第四,第五,等。复搜Р。学位论文智能数据分辑中异常数据的集成化管理方法硪究
确或不正确。如信用卡诈骗中,可疑的交易可能是诈骗,也有可能看似可疑但却是合法的交易。,分类错误能从%下降到%,但如果将异常数据全部清洗掉,分类错误反而上升。在过程控制中,从设备中采集到异常多变量时序数据时,意味着设然能或多或少地检测出异常数据。但过度依赖算法技巧,不能反映异常数据产,土有助于了解异常数据产生的原因和机制,而分析人员的经验有助于对异常数据进的公司应运而生,对数据质量进行专门研究的机构也越来越多“!’。‘。异常数据可能是单变量数据中的极端值,也可能是多变量数据中多个值的特定组台。异常数据对分析的结果有着重要影响,对数据集中异常数据的处理是智能数据分析面临的紧迫任务。列举了一个回归分析中的例子,该例子中的一个异常数据极大地改变了回归结果。为了研究异常数据对统计结果的影自,研究人员设计了多种回归诊断方法“。’“”,这些方法可以用来检查和评估某些特定简单地将异常数据排除掉可能会丢失有用的信息,导致数据分析的结果不精模式,而一个坏的异常模式可能是垃圾模式。蚐”’指出了认真对待异常