文档介绍:中南大学
硕士学位论文
判别分析与决策树在医院信息系统中的应用比较研究
姓名:董超雄
申请学位级别:硕士
专业:情报学
指导教师:肖晓旦
20060501
摘要背景:计算机和信息技术的发展,使数据及信息量急剧膨胀,面对“丰富的数据”而“贫乏的知识”这样一种挑战,数据挖掘应运而生,并蓬勃发展。另一方面,医院信息系统中存储了大量的数据,但由于缺乏相应的处理工具,这些数据并未得到充分的利用,统计学方法是人们以前常采用的方法,近年来数据挖掘的方法也开始应用到医院信息系统中,传统统计学方法和数据挖掘方法两者孰优孰劣目的:本研究试图用病案首页数据,分别以统计方法判别分析和数据挖掘方法决策树建立模型,对模型进行比较分析,为医院信息系统中的数据利用提供参考,为数据挖掘的实践提供借鉴,为统计方法和数据挖掘方法的比较提供依据。方法:从医院信息系统后台数据库中提取数据,并进行相应数据处理,然后在统计软件中用判别分析进行分析,在数据挖掘工具中建立决策树模型,分别对结果进行交互验证,并应用叻治龊蚅计拦滥P偷男Ф群途范取结果:%。结论:在分类符合率方面,决策树高于判别分析;在模型准确度方面,决策树模型高于判别分析:在精度方面,当样本量大时,决策树模型的精度也优于判别分析。在处理数据能力方面,决策树也强于判别分析。与判别分析相比,决策树更容易理解,结果简单、明确、结构直观,能清楚显示对分类或预测有意义的变量,并可生成一些规则:而判别分析的结果是函数式,需要经过计算才能得出结果。在结果输出方面及可视化方面,决策树占有明显的优势。决策树模型中树枝数和叶子节点数都是可调的,比判别分析更具有伸缩性和扩展性的优点,但树枝数和叶子节点数过多或过少都会影响分类效果,需根据实际控制,决策树模型在稳定性方面还不够。关键词:统计学,数据挖掘,医院信息系统,判别分析,决策树
.:,,.篍琾.,,%.%.,,.,篢.
.,篠,,篒,,.—瑃,,,甀,Ⅲ
作者签名幽新签名二陋』吼生年三月卫日日期:丛年上月生日作者签名:耋茎垒型童原创性声明关于学位论文使用授权说明本人声明,所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了论文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得中南大学或其他单位的学位或证书而使用过的材料。与我共同工作的同志对本研究所作的贡献均已在在论文中作了明确的说本人了解中南大学有关保留、使用学位论文的规定,即:学校有权保留学位论文,允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内容,可以采用复印、缩印或其它手段保存学位论文;学校可根据国家或湖南省有关部门规定送交学位论文。明。
第一章前言研究背景告。随着数据量的增长,多数据源所带来的各种数据格式不相容,有必要将数据于多个数据源,因此其中埋藏着丰富的不为用户所知的有用信息和知识,而要使这类工具还应能适应现实世界中数据的多种特性戳看蟆⒑肷⒉煌暾⒍.萃诰虻牟随着计算机与信息技术的飞速发展,人们能以更快速更容易更廉价的方式获取和存储数据,这就使得数据及其信息量以指数方式增长,九十年代互联网的出现与发展,使人们置身于浩瀚无垠的信息海洋。面对这极度膨胀的数据信息量,人们受到“信息爆炸”、“混沌信息空间”和“数据过剩”木薮笱沽ΑH绻挥杏行У姆椒ǎ杉扑慊靶畔⒓际来帮助从中提取有用的信息和知识,人类显然就会感到象大海捞针一样束手无策。据估计,目前一个大型企业数据库中数据,约只有百分之七得到很好应用。因此目前人类陷入了一个尴尬的境地,即“丰富的数据”而“贫乏的知识”如何对数据与信息快速有效地进行分析、加工、提炼以获取所需知识,就成为计算机及信息技术领域的重要研究课题。过去人们一般用人工方法进行统计分析和用批处理程序进行汇总和提出报以统一形式集成存储在一起,这就形成了数据仓库。接着人们提出了能进行实时分析和产生相应报表的在线分析工具茉市碛没б越换シ绞戒朗莶挚饽谌荩⒍云渲数据进行多维分析,且能及时地从变化和不太完整的数据中提取出与企业经营活动密切相关的信息。是数据分析手段的一大进步,以往的分析工具所得到的报告结果只能回答“什么”,而的分析结果能回答“为什么”5ǚ治龉是建立在用户对深藏在数据中的某种知识有预感和假设的前提下,由用户指导的信息分析与知识发现过程。由于数据仓库ǔJ葜亓恳訲内容来源企业能及时准确地做出科学的经营决策,以适应变化迅速的市场环境,就需要有基于计算机与信息技术的智能化自动工具,来帮助挖掘隐藏在数据中的各类知识。这类工具不应再基于用户假设,而应能自身生成多