首页 > 文章中心 > 正文

医学决策树技术的作用

前言:本站为你精心整理了医学决策树技术的作用范文,希望能为你的创作提供参考价值,我们的客服老师可以帮助你提供个性化的参考范文,欢迎咨询。

医学决策树技术的作用

1概念与特点

1.1概念

决策树方法(decisiontree)是通过一系列规则对数据进行分类的过程。具体讲是利用信息论中的互信息(信息增益)寻找数据库中具有最大信息量的属性字段,建立决策树的一个节点,再根据该属性字段的不同取值建立树的分支,在每个分支子集中重复建立树的下层节点和分支的过程[1]。也可以从几何意义上直观理解:将训练样本集中的每一个数据看成是n维空间上的一个点,决策树的分支就是按照一定规则完成对n维空间的区域划分。当决策树建好,n维空间便分成了若干个小区域,由于n维空间不直观,不易理解,便以树形结构展现[2]。

1.2特点

决策树学习属于机器学习的范畴,是一种类似于判别分析的有监督的学习方法。从统计角度看,与假定数据源呈一固定概率分布,然后进行参数估计的常规分类方法相比,决策树属于严格“非参”方法,对于输入数据高维属性和分类标识具有更好的弹性和稳健性。决策树对于问题的分类是基于逻辑,而不是像传统统计分类模型一样基于样本的统计属性。决策树分类耗时短,占用计算机资源少,效率高。分类结果简单、明确、结构直观,适用于较大规模的数据集研究。与神经网络和贝叶斯分类相比,决策树更容易理解,能处理缺失值,同时处理有数值型、两分类和多分类,有序型变量的数据,能清楚显示对分类或预测有意义的变量,并可生成一些规则(从根节点到每个叶子节点对应的路径就是“规则”)为决策提供依据[3~8]。

2历史与发展

决策树是迄今为止发展最为成熟的一种概念学习方法。它最早产生于20世纪60年代,是由Hunt等人研究人类概念建模时建立的学习系统(CLS,ConceptLearningSystem)。到70年代末,J.RossQuinlan提出ID3算法,当时他目的在于减少树的深度,却忽略了叶子数目的研究。1975年和1984年,分别有人提出CHAID(Chi-squaredAutomaticInteractionDetection)和CART(ClassificationandRegressionTree,亦称BFOS)算法。1986年,J.C.Schlimmer提出ID4算法。1988年,P.E.Utgoff提出ID5R算法。1993年,Quinlan本人以ID3算法为基础研究出C4.5/C5.0算法,新算法在对预测变量的缺失值处理、剪枝技术、派生规则等方面作了较大改进,C5.0是C4.5的商业改进版,与see5相对应[2,9~10]。

3种类与算法

3.1种类

按照不同的标准,决策树可以划分为不同的种类。①按照分类精确度和树复杂程度的大小,分为单个决策树和多个决策树,多个决策树是由单个决策树合并得到。②根据分割内部节点时使用统一的还是不同的算法,分为单一决策树和复合决策树。其中,单一决策树又可分为单变量(特征)决策树和多变量决策树,前者在树中每一内部节点处由数据的单一属性决定树的分支,后者在内部节点处由通过数学或逻辑算子将某些属性组合起来的新属性决定树的分支;复合决策树中常用的算法有决策树算法、线性判别函数和K最临近分类器。③根据每一树叶子节点内是否只含有相同类别的对象,可分为确定性决策树和非确定性决策树。④根据分类或预测变量的特征,分为分类树和回归树,分类树是对离散变量做决策树,回归树是对连续变量做决策树[3~10]。

3.2算法

决策树技术中有多种算法,最为有影响的是Quinlan以信息熵的减少作为选取分裂属性标准的ID3算法。该算法基本原理中引入了信息论的概念,简要介绍如下。假设训练实例集为X,目标分类为n。设属于第i类的训练实例个数为Ci,X中总的训练实例个数为X,若选择属性a进行测试,在得知a=aj的情况下属于第i类的实例个数为Cij个,则P(Ci;a=aj)=CijX为在测试属性a的取值为aj时它属于第i类的概率。此时决策树对分类的不确定程度,即训练实例集对属性a的条件熵是H(Xj)=-∑ip(Ci/a=aj)logp(a=aj),决策树的学习就是使得对划分的不确定程度逐渐减少。又因为在选择属性a后伸出的每个a=aj叶结点Xj对于分类信息的信息熵为H(X/a)=∑jp(a=aj)H(Xj),所以属性a对于分类提供的信息量即信息增益为I(X;a)为:I(X;a)=H(X)-H(X/a)。C4.5算法建立决策树时就是选择信息增益最大的属性作为分裂属性[11]。尽管决策树算法很多,但各有优势与不足。从事机器学习的专家学者一直在潜心改进现有算法并研究新算法,改进的着眼点主要围绕提高树的分类精度、减少树的大小、降低复杂性等几个方面。仅就ID3算法而言,就有二叉树判定算法、按信息比值进行估计、按分类信息估值、按划分距离估值、基于ID3的ID3-MAX、ID3-SD算法等几种改进[11]。此外,还有其它基于粗集的改进、基于深度优先搜索的改进、分类规则简化生成算法、加权模糊熵算法[6~8,12]等。

4核心问题与应用条件

4.1核心问题

决策树算法围绕的核心是决策树的生长和剪枝。生长,就是利用训练样本集完成决策树建立的过程;剪枝,就是利用检验样本集对形成的决策树进行优化处理,防止发生拟合过度的过程。剪枝方法主要包括预剪枝和后剪枝。预剪枝意为事先定好决策树的大小从而阻止其自由生长,停止准则常基于统计意义下的χ2检验或信息增益等度量,预剪枝计算量较少,但难以精确估计何时应该停止树的生长。后剪枝意为让决策树充分生长之后然后用所选的精度准则回头去除拟合过度的分支,主要分为减少分类错误修剪、最小描述长度修剪和最小代价-复杂性修剪等方法。后修剪通常能产生更可靠的树,因此在实践中应用更多一些。

4.2应用条件

决策树算法很多,可实现的软件也很多,常被应用的软件有SAS/EM、CART、See5-demo、KnowledgeSEEKER、KnowledgeSTUDIO、BusinessMiner、Decisionseries等。现以决策树较为常用的CART、CHAID、C4.5三种算法为例,说明它们在SAS/EM(SAS软件EnterpriseMiner)中各自的应用条件及选择分裂属性的标准。

4.2.1CART算法软件中输入变量(即自变量)的类型可以为名义型、数值型,如果是有序型,则可当作数值型变量处理。目标变量(即应变量)可以为两分类、多分类、数值型和有序型变量。不同的目标变量采用不同的分裂标准(splittingcriterion),两分类目标变量采用基尼系数(GiniCoefficient)、twoing和orderedtowing标准,其中后两个分裂标准使用频率不高;多分类变量采用基尼系数和twoing两个标准;数值型目标变量采用方差减少量或最少绝对差减少量标准;有序型目标变量采用的分裂标准为orderedtowing。

4.2.2CHAID算法输入变量的类型可以为名义型、有序型,因为选择分裂变量的算法不针对数值型变量,所以遇到数值型输入变量需先将其分段后再进入软件参与分析。目标变量可以为名义型或数值型,名义型和数值型变量选择分裂变量的标准分别是基于和卡方F分布的P值,决策树在构建过程中的停止均以卡方或F分布统计显著性为准。

4.2.3C4.5算法输入变量的类型可以为两分类、多分类名义型和数值型变量,目标变量可针对两分类或多分类名义型变量,分裂标准可选取信息熵(entropy)、信息增益(informationgain)或信息增益比(gainratio)。

5医学领域中应用

在国外,决策树应用领域较为广泛,其在商业、工业、农业、天文、医学、风险分析、社会科学和分类学等领域中的应用已经取得了很好的经济和社会效益。国内目前有关决策树的研究多是围绕算法的改进以及决策树在商业、工业等领域的运用,在医学领域应用较少。现将决策树在国内外医学中的应用情况集中概括为以下几个方面:

5.1疾病诊断治疗

临床医生为病人做出医疗诊断可以看作是一个分类的过程:医生根据他的知识和经验将病人分类到一个特定的疾病群中。决策树产生的结果简洁明了,易于理解,并能提取相应的诊断规则,其应用于疾病的分类诊断往往可以提高诊断正确率,并为经验较少的临床医师提供帮助,因而得到了广泛的应用。ErnaKentala等人曾从赫尔辛基大学附属医院的鼻神经专家系统数据库ONE中提取前庭区与晕头有关的6种发病人数较多的疾病资料,分别为6种疾病建立不同规模的决策树,并针对6棵树单独分析影响每一种疾病发生的重要因素,而且从决策树中提取诊断规则,从而将专家经验知识转化成了可供年轻医师随时参考的有价值的信息[13]。决策树在临床医学中应用范围较广,除了可以对疾病分类以外,还可以对疾病程度分级,筛选危险因素、决定开药处方大小以及选择治疗方法等[14~20]。

5.2基因与高分子序列分析

随着人类基因组计划的进行,目前已获得数十亿的核苷酸和上百万的氨基酸数据,如何对基因进行功能分类已成为基因研究人员非常关心的问题。而关于高分子序列,大约4000种蛋白质已经被排序,但只有10%的蛋白质的三维结构被研究过,三维结构基本决定蛋白质的功能,所以需要有一种可靠方法从氨基酸序列中预测出它的功能结构,数据挖掘中的决策树技术可以满足上述需求。有人利用决策树对已知功能分类的基因建立分类树,归纳出蕴含在数据中关于分类的信息并提炼成规则,从而实现对未知功能分类的基因进行分类预测[21]。DakeWang等人则利用决策树对已知功能分类的蛋白质序列进行研究,建立了已知功能分类的蛋白质序列决策树模型,实现了模型对未知功能分类的蛋白质序列功能的预测。结果表明决策树方法比传统方法有效[22]。

5.3医院信息系统挖掘

医院HIS(HospitalInformationSystem)系统包括管理信息系统(ManagementInformationSystem,MIS)和临床信息系统(ClinicalInformationSystem,CIS)两部分。目前的HIS可以高效地实现数据的录入、查询和统计功能,但在决策支持方面存在明显不足,难以发挥其潜力。而将数据挖掘决策树技术运用到该系统之后,可以从中提取大量隐含的、事先未知的、对决策有潜在价值的信息,为管理决策和临床决策提供支持。决策树在HIS系统的主要用途可以表现为医疗需求预测、医疗市场分析、预测未来某段时间内常发生的疾病种类、未来某段时间内的药品使用频率、分析疾病之间的关系以及疾病的影响因素、总结各种治疗方案的治疗效果等[23]。

5.4医疗政策分析

一个国家国民的健康保障在很大程度上依赖于其完备的医疗卫生政策,政策的制定离不开理论的分析与方法的探讨,离不开已积累的与人群健康状况相关的各种数据。从目前积累的各型数据库来看,利用知识管理优化库信息并从中提取知识结构为政策分析提供依据已经成为卫生管理人员和信息开发人员的共同任务。研究人员多次尝试将数据挖掘中的决策树技术在此进行应用。韩国的YoungMoonChae与SeungHeeHo等人便利用以监测卫生状态和开发国民健康促进程序为特征的韩国医疗保险公司数据库,成功地将决策树应用于人群健康状态评估以及为高血压管理提供政策信息[24]。

5.5医疗卫生保健

卫生保健是卫生领域内的一个重要内容,保健的需求与利用评价、不同保健方式的选择以及保健的经济和社会效益评价一直是卫生保健人员关心的问题。利用决策树方法可以解决诸如家庭护理保健的需求分析、儿童预防保健的干预、为不同的卫生保健群体提供实际可行的决策支持系统等一系列问题,为保健政策的制定与实施提供了相应的基础[25]。

5.6医疗资源利用评价

尽管当今社会医疗科技手段日新月异,医疗技术水平不断提高,但并不表明医疗卫生资源的极大丰富。医疗资源合理分配、恰当运用仍是医学研究中不可忽略的重要问题。把决策树技术引入对有潜在急症的病人是否进行预检查而导致医疗资源占用情况不同的比较其成功地显示出决策树在处理此类问题的重要意义[26]。

随着数据挖掘技术的广泛应用,决策树算法的不断改进与完善,决策树可实现软件的普及推广,决策树处理医学资料功能的日显强大,相信决策树方法在医学领域与管理决策中的应用范围将会越来越广泛,带来的经济和社会效益将会更多更可观,必将显示出重要的实用价值和广阔的发展前景。