文档介绍:医学中的数据挖掘问题
摘要
在基于调查的病人数据上的任何回顾的原则是在没有姓名的情况下通过问题或标志来搜索患者。有了适当的帮手,译码电脑通过问题将数据基础存档,数据挖掘的进程将变得容易。人们只需要输入要求,在很短的时间就可得到适当的数据。
医疗档案时常只有基础在纸上记录,借由一个病人名字当做进入钥匙。为了在这些档案中找那适当的记录, 侦探战略是必要的。这一进程仍在继续收集通常大量的论文,发现它们之间的适当的记录和最后的译码,并安排他们在一个表中。整个命名过程可以在病人,文件和数据挖掘上分开。因为他们的拖延,这些阶段是医疗数据调查的大部分时间松动的组成部分。作者介绍了他的数据挖掘经验。
关键词:数据挖掘,医药,冠状动脉疾病,数据库
1、导言
对病人的医疗数据调查的任何回顾有四个主要阶段:计划研究,数据挖掘,数据处理和结果的解释。对于调查的一个善行成就,其中每一个阶段是同样重要的。
数据挖掘过程开始确定在哪个池中找到足够数量选择标准履行预计的病人,继续确定计划的这类病人,收集他们的记录,核实相关的每一个病人和他的纪录,抓住适当的数据,定性和定量译码数据并在表中安排这些数据。现在这些数据就已经为处理作好准备。
如果在一个计算机化的医疗数据存在合适的病人,其主要步骤通过这一过程很容易。根据数据的译码水平,只需要把对病人的诊断,年龄,性别或完成观察调查结果的请求输入电脑,就可收到一连串粗糙适当的数据。
如果我们只开设了文件归档,数据挖掘过程将会更加困难...
2、医学资料库
一般情况下,任何病人的医疗过程包括诊断和治疗。这个过程都在一个办公室,在医院或在诊断或政策干预设施的病床边。大多数的诊断结果是图像。所有在网上的言论,大多数的诊断,治疗和最终结果做定性描述。明显的结果报告是对那些作简要说明的问题,调查结果,政策干预措施和进一步的建议的评论文章。因为流行病学家的需要,最终诊断被改为译成密码。
为了如何将电脑中的所有这些数据建立一个资料库可能有几种可能性。所有描述记录,计算结果,数字图象记录或其说明应被收集在有病人的名字或诊断的计算机数据库用来作为开始钥匙。
一种先进的方法是将开始用任何钥匙实现数据的可能性的任何调查或政策干预和任何结果译成密码。
3、医学数据网络系统
诊断或治疗过程中的任何先进情形涉及若干部门的诊断和政策干预,有时甚至更多的机构。在任何地方所有已收集到的医学数据是必要的或至少是有用的。在医疗机构之间有了适当的数据库和网络系统,一切适当的数据或图像很容易实现。在教学的情况下,也是一个医学教育的重要组成部分。
并行的医疗网络系统是医疗保险网络。所有公立医疗机构都被连接到计算机数据库网络,这些在任何特定时刻能够提供一系列有关医疗保险数据。
4、从理论到现实
上面的医疗数据库和网络系统说明在描述理论;现实是不同的。
因为它已经被提到,所有这些特别的病人的诊断和治疗过程在同一医院或不同的医院中的不同部门出现。任何记录的体检或政策干预的最初的记录被存放在一个部门的存档部。在所有部门中每个标识了的部门有自己的病人名单,和相类似的原则。这些证据包括一个有病人的名字的纸卡,卡是以字母顺序排序,每个卡有一个具体的数字,并且这个数字在病人记录的存档中被提及。检索
特别记录的关键是病人的名片上的号码。这位患者的名单上除了病人的名字,与医院的一般清单或保险清单没有任何共同之处。
这一定律可能来源于是从埃及思路和,但在临床工作中,与已知病人的名字,它显得完美。唯一的问题是时间。如果要取得一个适当的档案记录可能需要几个小时或几天。(这一制度的好的一面的是,若干潜在的失业员工有工作!)。
5、存在的问题
所描述的,我们认为目前主要仍然是足够的为临床工作,但完全不适用于研究目的档案系统。因为它已经提到,病人的名字是唯一的关键检索,但在研究中若没有病人的姓名任何迹象都可以作为检索的关键。为了说明这个问题,我们研究组的数据挖掘经验将会描述。
在1996至1997年,在斯洛文尼亚的一个大型的大学医院,我们已进行了回顾性对调查学习对冠状动脉疾病的诊断过程的机器影响的研究。为了研究记录的需要,我们已收集几百名经历那确定或排除冠状动脉疾病(CAD) 的持续诊断过程。后者过程包括一系列的测试(一种模式),例如:历史/临床检查,心电图运动试验,负荷心肌灌注显像和冠状动脉造影。个别病人的诊断问题决定上述程序的数量和序列。所有这些程序在医院的不同的,专门部门中进行。每年这些部门中的任意一个都要执行专门测试从几百到一千多次。大多数患者接受一个或两个程序; 整个调查顺序只在少数人中发生。为了我们研究的需求,我们需要确定这个小团体。因此我们处理作为进入钥匙的没有名字的病人的问题, 和必须用名字寻找没有问题的档案。我们开始了一项重