文档介绍:数据挖掘技术在肿瘤研究中的应用
王化修1,2
(1 湖南中医药大学2007级博士研究生,2 邵阳医学高等专科学校病理教研室)
关键词:数据挖掘;肿瘤
中图分类号:R311;R730 文献标识码: B
The application of data mining technology in tumor study
WANG Hua-xiu
Key words: data mining; tumor
CLC Number: R 311;R 730
近年来,数据挖掘技术在医学领域中的应用越来越广泛。在疾病诊断、治疗、器官移植、基因研究、图像分析、康复、药物开发、科学研究等方面都获得了可喜的成果。南加州大学脊椎病医院利用Information Discovery进行数据挖掘,该技术已应用到肿瘤学、肝脏病理学、肝炎的生存几率预测、甲状腺疾病诊断、风湿病学、皮肤病诊断、心脏病学、神经心理学、妇科学、产科学等医学领域。目前,国内外研究人员在肿瘤研究领域已广泛应用数据挖掘技术,本文主要就此方面的最新进展作一综述。
1 数据挖掘技术在肿瘤诊断中的应用
刘晶等[1]应用决策树分类技术,研究和开发了一种基于数据挖掘技术的大肠早癌诊断系统。该系统首先对所采集的大量激光诱导自体荧光光谱进行处理,并建立相关数据库,然后采用决策树分类方法对样本进行训练和分类,最终进行正常组织和癌变组织的判断,并由系统输出诊断结果。结果表明该系统可有效地用于指导大肠癌症的早期诊断和治疗。毛利锋等[2]应用一种基于决策树的乳腺癌计算机辅助诊断新方法,选取500例乳腺癌病例为数据样本,每个样本由9个细针吸取细胞学指标【肿块密度(Clump Thickness)、细胞大小均匀性(Uniformity of Cell Size)、细胞形状均匀性(Uniformity of Cell Shape)、边界粘连(Marginal Ad-hesion)、单个上皮细胞大小(Single Epithelial Cell Size)、裸核(Bare Nuclei)、微受激染色质(BlandChromatin)、正常核(Normal Nucleoli)、有丝分裂(Mitoses)】组成,将样本随机分为训练集和测试集,然后利用决策树方法从训练集中学习得到诊断模型,经测试集测试
。%,%%。决策树方法提取的诊断规则描述简单,应用方便;决策树方法在辅助FNAC诊断乳腺癌的同时,还可判断各参数对乳腺癌诊断贡献的大小;从决策树模型中可见,裸核对乳腺癌诊断起决定性作用,细胞大小均匀性和细胞形状均匀性则可作为诊断的重要指标,因此,决策树方法是一种简便可行的计算机辅助诊断方法,可从病例自动提取诊断规则,具有较广泛的实用价值,可应用于其它疾病的诊断研究。目前,国际上已经把挖掘技术应用于肺癌的诊断中,经大量的研究表明,选取诸如年龄、CT图像中肿瘤的最大半径、肿瘤的位置、钙化程度等18个医学检验指标作为特征值,利用这些特征值对基于粗糙集理论的自主判别算法模型进行训练后,再用特征值不完整的新记录来测试,诊断的正确率非常高[3]。陈卉等[4]研究了数据挖掘技术在计算机辅助肺癌诊断中的应用,通过收集经手术或穿刺活检病理证实的孤立肺结节20