前言:想要写出一篇令人眼前一亮的文章吗?我们特意为您整理了5篇常用统计学方法分析范文,相信会为您的写作带来帮助,发现更多的写作思路和灵感。
【关键词】医学统计学;研究生;教学改革
培养医学研究生不仅要提高其专业能力,更要培养其科研思维能力和解决科研实际问题的能力。《医学统计学》的学习不仅能够培养医学研究生良好的科研思维能力,而且能够从科研设计、资料收集、数据统计分析、结果正确解释等方面大大提高学生解决实际科研问题能力。因此,《医学统计学》教学在研究生课程教学中有着举足轻重的作用。
1《医学统计学》教学中存在的问题
尽管在本科教学、硕士研究生教学、博士研究生教学均开设了《医学统计学》课程,但是,在目前教学模式下,经过《医学统计学》课程学习的大部分医学研究生在医学统计学的理论学习和实际应用方面仍存在严重的脱节现象,如统计设计不合理、资料分析统计学方法应用错误、研究结果解释不正确等。有调查显示,只有不到30%的研究生能够熟练掌握和正确运用常见的统计学方法,如统计描述、t检验、相关分析、单因素方差分析等。由于缺乏良好的运用统计学方法的能力,有许多学生在开展科研实践中遇到了较多的麻烦,造成了不必要的损失。有的因为课题设计存在严重问题,只好在课题已经开始实施后推到重来;有的因为在资料分析时采用了错误的统计学方法,得出了错误的结果和结论,不仅导致了本研究的失败和科研资源的浪费,而且由于错误的研究结论未能得到及时发现和纠正而导致了后续研究资源的投入,产生了更多研究资源的浪费。此外,目前《医学统计学》教学对医学研究中常用的一些高级统计学方法如生存分析、Meta分析等涉及较少或者着力不够。
2 《医学统计学》教改措施
2.1教学方式的调整
目前医学研究生《医学统计学》教学模式中采取的教学方式仍然是本科学习阶段的教学方式,即老师理论授课,辅助课后练习题的完成。研究生在本科阶段已经较为系统地学习了《医学统计学》的基础理论知识,在硕士或博士阶段则应更加注重《医学统计学》方法实际应用能力的培养。因此,医学研究生《医学统计学》教学应采用理论教学为辅,实践操作为主的方式。减少理论课课时数,增加实践操作课时数。理论授课应结合医学研究的需要,采用问题为基础,学生为主,老师为导向的启发教学方法;实践操作教学可采用如下方式:
(1)典型案例分析法 老师可以选用一些典型的课题标书、研究论文,先让学生进行课前阅读,找出标书或论文在统计设计或统计方法运用方面的缺点和巧妙之处,然后在课堂上进行讨论,老师最后剖析和点评。
(2)小组课题设计 可通过学生自主设计课题的方式提高学生对统计方法、统计设计等的应用能力。具体方式为:首先对学生进行分组,每组自行选题,进行科研设计,然后在老师的引导下,对每一组课题标书进行课堂讨论和点评。
(3)导师课题演练法 学校安排一定的课时,让学生在《医学统计学》课程开始前、开始中积极参与导师课题研究活动。一方面可以通过提高学生对医学统计学方法应用的需求,激发学生学习《医学统计学》的热情和积极主动性;另一方面,学生在参加课题实践过程中往往会遇到许多有关课题设计、资料统计分析等方面的问题,带着这些问题去学习《医学统计学》,将有更加深刻的体会。
2.2课程内容的调整
目前,研究生《医学统计学》教学课程内容主要包括:①基本统计学方法。主要有:统计描述、t检验、单因素方差分析、单相关分析、一元线性回归、二维表、秩和检验等。②高级统计学方法。主要有:多元线性回归、logistic回归、多维表x2检验、生存分析等。③科研设计。主要有:简单析因设计、简单拉丁方设计以及研究样本量的估算等。④统计软件及应用。主要有SPSS软件的应用。研究生《医学统计学》教学课程内容应根据培养学生的类型及医学研究的需要进行实时调整。一方面强调专业型硕士研究生基础统计学方法的学习;另一方面要增加或加强学术型硕士研究生和所有博士研究生对logistic回归、多维表x2检验、生存分析如COX回归和Kaplan Meier等常用高级统计学方法的学习。虽然有些学校现有教学课程内容包含了这些内容,但要求学习的内容不够全面和深入,只有极少数学生能够熟练应用此方法开展科研实践。此外,还应增加高级统计学方法在医学统计软件中的使用方面的教学内容。
2.3考核方式的调整
目前,研究生《医学统计学》课程考核方式主要是以闭卷笔试为主的理论考试,而对学生统计学方法的实际运用能力考核重视程度不够。对于硕士研究生,我们可以采用闭卷考试为主,辅之以实际操作能力考核。具体为:一方面采用闭卷考试考核,分值约60-70分;另一方面要求学生结合医学研究工作的需要,设计一项科研课题,撰写一份课题标书。此项考核分值约30-40份。博士研究生则采用实际操作能力考核,平时作业综合考评得分为辅的考核方式。具体为:要求博士研究生结合医学研究工作的需要,设计一项科研课题,撰写一份高质量的科研标书,此项考核分值约60-70分;同时,任课老师对每位学生平时作业情况进行综合考评,此项考核分值约30-40分。
3 思考
研究生《医学统计学》教学改革的重点内容包括:一方面要改变理论教学为主、实际运用能力为辅的教学方式,从而提高学生科研实践能力;另一方面,还要根据医学研究的需要,丰富《医学统计学》教学内容,以此满足医学研究的需要。教学改革需要教育部门、学校的高度重视;同时也对老师和学生提出了更高的要求和挑战。不仅需要教师不断更新、完善自己的知识结构,在教学实践中反复摸索、不断尝试,而且也要求学生具有更广的知识面和更强的自学能力及动手能力。
参考文献:
[1]潘发明,廖芳芳,夏果,等.1临床科研论文中常见的统计学错误分析(一).安徽医药,2008,12(2):192-193.
[2]李淑,杰孙忠. 加强医学统计学教育 提高医疗及科研水平. 中华医院管理杂志,2009, 25(5):346-348.
[3]潘发明,夏果,廖芳芳,等.I临床科研论文中常见的统计学错误分析(二).安徽医药,2008,12(6):576-577.
[4]万献尧, 张久之. 医学科研或论文中常见的统计学问题. 医学与哲学(临床决策论坛版),2009,30(12):74-75.
[5]漆光紫,任美璇,黄高明. 不同类型医学硕士研究生《医学统计学》知识掌握和需求情况调查. 中华医学教育探索杂志2011, 10( l2):1459-1463.
[6]邹延峰,潘发明,田果等. 某医科大学研究生医学统计学教学需求调查 .中国卫生统计,30(6):934-935转933.
[关键词]卫生信息管理医学统计学教学改革
[作者简介]周文君(1975-),女,江苏盐城人,盐城卫生职业技术学院卫生信息管理教研室主任,讲师,研究方向为公共卫生及卫生信息管理专业教学。(江苏盐城224005)孙晓凯(1978-),男,江苏盐城人,盐城市疾病预防与控制中心慢性病科主管医师,研究方向为慢性非传染性疾病的预防与控制及卫生统计学教学。(江苏盐城224002)
[中图分类号]G642.0[文献标识码]A[文章编号]1004-3985(2009)20-0144-02
现代医药卫生科技信息化发展迅速,卫生信息管理科学的发展对卫生信息管理专业人员的素质提出了很高的要求。医学院校培养的卫生信息管理专业学生需要面向各级卫生行政管理部门、医院、医学信息部门、医学图书馆等部门,从事日常办公事务处理、病案管理、卫生信息资料、医学图书、档案管理等工作和计算机维护工作。①他们除了需要掌握基础医学、临床医学等医药卫生知识和程序设计、数据库管理等计算机知识外,还需要具有较好的统计学理论知识,能够熟练掌握部分统计软件的使用,以便为各级医药卫生机构提供信息和决策依据。为了提高医学统计学课程质量,培养卫生信息管理专业学生建立统计学观念,提高动手解决实际问题能力,近年来,盐城卫生职业技术学院对卫生信息管理专业的医学统计学的教学方法进行了探索与研究,主要从以下几个方面着手。
一、根据课程特点明确学习要求
1.课程特点。医学统计学是一门既有复杂理论知识,又有丰富应用技巧的医学专业基础课程。它是科研设计、资料的搜集、整理和分析的灵魂,可应用于居民健康状况评价、医疗卫生实践和医学科研等各个方面,涉及基础医学、临床医学、预防医学等多学科领域。医学统计学内容主要是以医学理论及其研究内容为载体,应用数理统计学的理论和方法来阐述某个医学实际问题。②
2.学习要求。医学生学习医学统计学,并非要成为医学统计学的专业人才,其目的在于建立起统计学观念,学会从不确定性、机遇、风险和推断的角度去思考医学问题。对于卫生信息管理专业等非预防医学专业学生,特别是专科生,医学统计学的数学原理、公式推导等要求可以更加放宽,重点应放在统计方法的应用上。因此,我们要求学生学习医学统计学必须要牢固树立起统计学观念,如生物性个体变异观念,各种医学指标独特和分类观念,抽样误差不可避免及各种条件下样本具有不同的误差观念,各种研究对象和研究方式含有不同变异的观念,等等。学习医学统计学的具体要求是:能够理解一些基本概念、基本原理;记住一些最基本的公式和界值;重点要掌握统计方法的适用条件、统计结果的解释;此外还要再加上认真的课后练习和上机实习。
二、系统安排教学重点
1.合理选择授课章节。目前,各地院校本科、专科生开设的医学统计学课程课时大多在50~100节课间,要在这有限的课时内讲完这么多的内容很不现实,所以各地学校要根据培养目标选择适当的章节为学生讲解。对于非预防医学专业学生,除了基本的概念、统计描述、概率分布、参数估计、t检验、卡方检验、非参数检验等医学统计学基础理论部分外,其他的理论部分,如实验设计、调查设计、复杂的相关与回归等章节可以不讲,留给有兴趣的同学自学,把更多的时间安排在课上讨论和实习课的操作上。对于卫生信息管理专业学生的培养目标,除了基本统计学理论外,还应重点加上在日后信息统计工作中会常用到的关于各种率的概念、计算方法的章节。此外,还可以讲座的形式为学生介绍一些常用的、比较复杂的统计学方法。
2.明确教学重点。传统的统计学教学内容包括三个方向:一是基本概念和方法;二是公式的来源、推导和详细的手工计算步骤;三是统计结果的解释与分析。③传统的公式推导虽有利于对统计基本概念的理解,但对非统计专业的医学生来讲,冗长的公式推导已很难理解,更谈不上对它的记忆了。因此,对于统计公式,我们要求学生只要了解其直观意义、用途和应用条件,而不要求掌握其数学推导,教学内容的重点放在统计学基本原理、基本要领和逻辑思维上,而不是统计学方法的计算过程或数学算法的讲解上。同时,随着信息技术的迅速发展,各种数据处理软件和统计软件唾手可得,统计学计算也很容易实现,相反,统计学基本知识和基本原理的教学更显迫切。我们的教学重点是培养学生解决实际问题的能力,让学生对已有资料能够找到适合的统计方法,结合本专业知识解释统计结果。为此我们调整了一些教学内容,注重统计学基础、统计学思维、统计学操作能力的培养,同时利用优秀的统计软件,简化统计计算过程,强调统计方法的选择与报告信息的提取。例如,目前医学上常用的假设检验方法有十余种。我们要教会学生能够根据研究目的、资料类型选择最适宜的统计方法,如计量资料常用t检验、方差分析等方法;计数资料常用卡方检验;等级资料可用秩和检验等,同时还要注意各种检验方法的应用条件。
三、注重例题的练习
1.从例题入手,提高学生的认识。医学统计学的学习以理解为主,而一般医学院校的学生对数学的接触很少,因此,对于医学统计学这门课程,很多学生往往存在一种恐惧心理。为消除这种心理,使学生对之感兴趣,从实例入手是非常重要的。在理论教学课上讲授某个概念或方法之前先举个例子或提出问题,让学生给出自己的看法和解决思路,教师适当加以引导和启发,在解决这些问题的同时,再将统计学基本概念、基本原理和基本方法融入其中。这里提到的实例,可以是教材中现有的例题或练习题,可以是统计咨询中碰到的实际问题,或医学期刊论著中的一些实例,也可以是日常生活中的某一现象。学生的思维经过这样一个由感性到理性,由具体到抽象的认识过程,减轻了接受抽象概念和方法的难度,加深了对书本内容的理解,还调动了他们学习的积极性,对提高教学效果大有帮助。此外,大量例题的讲解和练习还有利于提高学生日后解决实际问题的能力。由于毕业后从事不同的工作岗位,对于大部分人来说,很多统计方法往往因用不到而不会使用,等实际工作中碰到时候便无从下手,这时他们便可查阅以往教材、参考书上的例题,与实际工作中的材料进行对比来获得合适的统计方法。
2.进行案例讨论,加深对常见错误的认识。统计方法的选择重点在于要根据设计类型、资料类型及分析目的选用适当的检验方法和检验统计量。我们在讲授各种检验方法时,不但重点强调各种方法的应用条件,还举出具体误用例子加以讨论,将常被误用的方法列举出来,供学生辨析,从反面吸取经验教训。比如常见误用有:配对t检验误用为成组t检验;多组均数比较应用方差分析及q检验误用为t检验;配对设计卡方检验误用为成组卡方检验;多个率比较应用行×列表卡方检验误用为四格表;应该用确切计算概率法误用为四格表卡方检验;等等。新版的“卫生统计学”教材每章都增加了“案例讨论”部分,教师减少了习题课时间,充分利用这些案例,给学生足够时间进行课堂讨论。案例讨论在不偏离主题的前提下,调动了每一个同学的积极性,又能及时发现问题,解决问题,培养学生的综合应用能力,为今后的实际应用打下坚实基础,很受学生的欢迎。
四、使用统计软件提高教学质量
1.选择SPSS软件作为教学软件。计算机和软件技术的飞速发展避免了在医学统计工作中烦琐的计算过程和记忆复杂的计算公式,使得医学统计学的应用越来越易于实现。卫生信息管理专业学生之前接受过计算机基本知识的培训,很容易掌握软件的操作,因此开设统计软件实习课显得尤为必要。目前,国内外的统计软件众多,根据学生的实际情况,从针对性、实用性的观点出发,我们选择了功能强大且易于掌握的SPSS软件作为医学统计学实习课的教学软件。SPSS是目前国际上最流行的、具有权威性的统计分析软件之一,它操作简单,无须编程,易学易用,可以直接读取Excle等数据文件,分析结果清晰、直观,可以直接复制到Word文档中,为学生使用带来极大的方便。④
2.精心安排实习课内容。实习课我们要求学生在计算机上学会应用该软件,能够在学习之后应用该软件独立完成实际资料的统计分析等工作。具体做法是,首先由实习教师对本节课的内容进行讲解,并在主机动态演示SPSS软件的操作过程,解释结果,然后让学生应用SPSS软件独立完成书本上或教师精心筛选的习题,并要求学生看懂计算机输出的结果,同时能对资料进行解释。我们重点让学生掌握的是一些基本操作(包括数据的输入和整理、变量的设置、转换等)、主要统计分析过程(包括描述性统计、t检验、方差分析、卡方检验、线性回归和相关分析、非参数检验)和基本统计图等内容,同时要求学生能理解输出的结果,合理解释统计结论中重点指标的含义。
3.避免盲目使用统计软件。统计方法选择的正确与否依赖于使用者对资料的了解程度与统计分析方法的掌握程度。而SPSS软件只是一种工具,它无法对统计方法的适应性做出判断,不能取代分析过程。如果不懂得选用正确的统计方法,而盲目使用计算机和统计软件,不管是什么研究类型的数据都简单地交给计算机处理,用计算机取代统计,那么大量的信息和统计数据将得不到有效的利用,势必造成统计方法的滥用和误用。另外,学生在课本上看到的是规范化的表格表示出来的资料,很容易选择适当的方法,而日常工作中往往不是这样,因此,如果学生对统计方法掌握不好,在实际工作学习中很容易出现滥用统计软件的情况。所以,我们教学中一再强调不能盲目的使用统计软件,而是要根据统计学原理选择合适的统计方法,然后再使用统计软件进行分析。
五、采用现代化教学手段
[关键词]生物统计学;本科教学;Excel软件;统计功能
[中图分类号] G642 [文献标识码] A [文章编号] 2095-3437(2017)03-0066-03
统计学是生物学领域进行科学研究不可或缺的工具,目前大多数高校已把生物统计学列为生物学相关专业的必修课。通过该课程的学习,有利于培养学生正确分析试验数据的能力,对于进一步学习专业课程和日后进行科研也有着非常重要的作用。近年来,统计分析软件的应用越来越普及,应用统计软件来辅助生物统计学的理论教学变得尤为重要。[1][2]
Excel作为常用办公软件,除具备较强的图表和计算功能外,还提供了大量的统计函数和数据分析工具。利用Excel的统计功能,可快速、简便地进行描述性统计、t检验、方差分析、回归、相关等多种统计分析,从而为生物统计学的教学提供了极大便利,强化了教学效果。Excel的统计功能虽不如SPSS、SAS等专业统计软件强大,但具有易学易用的优势,适用于统计学的初学者,可基本满足本科生的教学需要。[3][4]
一、Excel统计函数简介
(一)统计函数的插入
Excel软件提供了丰富的数学和统计函数,将这些函数结合起来应用,可显示出Excel的统计分析功能。[3][4]在Excel 2003菜单中的“插入”项,选择“函数”。或在2007及以上版本中,在“公式”菜单项选“插入函数”命令,之后在“选择类别”栏选择“统计”,即显示大量统计函数。
(二)常用统计函数介绍
1.统计学参数或特征数的计算
数据的标准差、平均数等特征数均可由统计函数计算得到。反映集中性的函数包括AVERAGE(均值)、GEOMEAN(几何平均数)、HARMEAN(调和平均数)、MEDIAN(中位数)等;反映离散性的函数有:DEVSQ(离差平方和)、STDEV(样本标准差)、VAR(样本方差)、KURT(峰度系担┑取
2.数据分类
FREQUENCY函数可对大量数据进行分类和统计,表达式为:FREQUENCY(Data array,Bins array)。该函数为数组公式形式,运行显示出一个分组的频数后,还需选中所有结果的显示区域,按F2键,再按“Ctrl+Shift+En?鄄ter”组合键,方可求出所有分组的频数。[5]FREQUENCY的操作步骤因分类资料的性状而有所差异。A. 质量性状资料:在函数对话框中,“Data array”一栏输入分类数据所在的单元格地址,“Bins array”一栏输入分类标志值所在单元格。B. 数量性状资料:确定好分类的组数、组距和组限后,将各组的上限按升序输入工作表,在“Data array”和“Bins array”分别输入相应的单元格地址。
例:现有350名学生的英语成绩,需按优秀、良好、一般和不及格进行分类,并统计各等级人数。考试成绩为数量性状资料,首先按升序将各组上限按升序输入工作表(60、74、90)形成一列,插入FREQUENCY函数,在“Data array”输入成绩所在单元格区域,在“Bins array”输入各上限所在的单元格区域,确认后即可计算出不及格的人数(
3.概率函数
概率函数可直接计算出给定参数条件下各理论分布的概率值(P)。[6]常用函数有BINOMDIST(二项分布)、POISSON(泊松分布)、NORMDIST(正态分布)、NORMSDIST(标准正态分布)、TDIST(t分布),FDIST(F分布)等。
例如,BINOMDIST函数的功能为计算给定参数条件下二项分布的概率值。函数表达式:BINOMDIST(number_s,trials,probability_s,cumulative),其中num?鄄ber_s为试验成功的次数,trials为独立试验的次数,prob?鄄ability_s为试验成功的概率;cumulative为一逻辑值,用于确定函数的形式,取值为1和0。Cumulative如果取1,结果显示至多n次成功的概率;如为0,则返回恰好为n次成功的概率。
4.t 检验
TTEST函数功能为返回t检验的概率,以此来判断假设检验的显著性。函数表达式:TTEST(array1,array2,tails,type),其中array1为第一组数据所在的单元格区域,array2为第二组数据的区域,tails为分布曲线的尾数(双尾或单尾),type表示t检验的类型。函数运行后得到t检验的概率值(P),如P
5.相关和回归系数计算
CORREL函数功能为计算两变量间的相关系数,以此来判断两变量间的相关程度和性质,表达式为COR?鄄REL(array1,array2),array1和array2代表进行相关分析的两组数据。利用INTERCEPT和SLOPE两函数可计算线性回归系数,函数表达式分别为INTERCEPT(known_x′?鄄s,known_y′s),SLOPE(known_x′s,known_y′s),其中known_x′s、known_y′s为自变量和因变量的数据集合。INTERCEPT函数可计算线性回归的截距(a),SLOPE函数可计算线性回归的斜率(b),从而得到线性回归方程:=a+bx。
二、数据分析工具的应用
(一)分析工具库加载
Excel的分析工具库具有较强的统计分析功能,但此功能通常未默认安装,需加载后使用。
1.在Excel 2003中,在“工具”菜单中单击“加载宏”,在弹出对话框中选中“分析工具库”即可,之后“工具”菜单中即出现“数据分析”条目。
2.在Excel 2007或更高版本中,单击左上角的“Office按钮”,选择“Excel 选项”,在弹出对话框中单击“加载项”,然后在“管理”栏中选择“Excel加载项”,单击“转到”,最后在“加载宏”窗口中选中“分析工具库”,之后在“数据”菜单中即出现“数据分析”条目。
(二)常用统计方法介绍
分析工具库包括描述性统计、t检验、方差分析、回归、相关、F检验等多种统计方法。[3][5]每次使用时,按照各统计方法的格式要求输入原始数据,单击“数据分析”选项,在弹出对话框中选择所需统计方法即可。
1.数据分类
将各组的分类标志值(质量性状资料)或上限值(数量性状资料)输入工作表,在“数据分析”中选择“直方图”;弹出对话框后,在“输入区域”选择分类数据的单元格地址,“接收区域”选择分类标志所在的单元格,运行即可。
2.描述统计
输入数据资料,在“数据分析”中选择“描述统计”,运行后即可得到最小值、最大值、平均数、标准差、方差、峰度、偏度等常用统计量。
3.t检验
t检验包括平均值的成对二样本分析,双样本等方差假设,双样本异方差假设检验。如进行平均值的成对二样本分析,弹出对话框后,分别在“变量1区域”、“变量2区域”输入两组数据所在的单元格地址,之后在“输出区域”选择某空白区域,确定即可。运行结果包括平均数、t值、df、单尾和双尾概率(P)、临界t值等信息。若P
如进行成组设计的两样本均值检验,需先进行F检验:双样本等方差假设,判断两样本所在总体方差是否同质。步骤:分别在变量1、变量2输出区域选择相应单元格区域,运行结果包括方差、F值、单尾概率(P)、临界F值等。如P
4.方差分析
方差分析包括单因素、无重复双因素、有重复双因素三种类型。如进行单因素方差分析,弹出对话框中,在输入区域、分组方式、输出区域分别输入相应信息后,单击“确定”即可。输出结果包括平方和(SS)、df(自由度)、MS(均方)、F值、F crit(F临界值)、P值等信息(表1)。如P>0.05(或F
5.回归与相关分析
线性回归分析:在“数据分析” 菜单选择“回归”, 在弹出对话框中输入Y值、X值、置信度、输出区域等信息后,运行即可得到回归截距(Intercept,a)和回归系数(b)(表2),从而写出回归方程。根据回归系数的t检验结果或方差分析的F检验结果,可判断两个变量间的线性回归关系是否有效。[7]由表2可知,a(Intercept)=-1.382,b=5.503,回归方程为:=5.503x-1.382。由回归系数的t检验可知,P=0.00004
三、结语
Excel软件提供的统计功能基本涵盖了统计学的教学内容,且对于生物统计学的初学者而言,具有易学易用的优势,可作为本科教学的有效辅助工具。在每章理论知识讲解完毕,应紧接着介绍Excel的统计功能、操作步骤和结果解释,把课程理论教学、实际案例分析和软件应用有机结合,可取得较好的教学效果。教学实践表明,运用Excel的统计功能来辅助理论教学,不仅能够加深学生对统计学原理的理解,还可以提高学生运用理论知识来分析数据的能力,从而使得生物统计学的学习变得轻松。在今后的生物统计学教学实践中,应紧密加强Excel软件应用与理论教学的融合,并考虑将 SPSS等专业软件逐步引入教学中,以期进一步提升学生分析处理复杂数据、解决实际问题的能力。
[ 参 考 文 献 ]
[1] 张丹,吕海燕,张幸果,等.应用Excel软件有效提高《生物统计学》课程的教学效果[J].河北农业科学,2012(8):93-95,99.
[2] 魏兴民,任真,代婷.Excel在中医药统计学教学中的应用[J].高等数学研究,2013(1):93-95.
[3] 张联锋,蒋敏杰,张鹏龙,等.Excel统计分析与应用[M].北京:电子工业出版社,2011.
[4] 杨景峰.EXCEL的计算功能在生物统计学教学中的应用[J].内蒙古民族大学学报(自然科学),2012(6):738-741.
[5] 王锟.Excel 在统计学中的应用[J].湖南科技学院学报,2013(12):9-11.
【论文摘要】所谓统计思想,就是在统计实际工作、统计学理论的应用研究中,必须遵循的基本理念和指导思想。统计思想主要包括均值思想、变异思想、估计思想、相关思想、拟合思想、检验思想等思想。文章通过对统计思想的阐释,提出关于统计思想认识的三点思考。
【论文关键词】统计学;统计思想;认识
1关于统计学
统计学是一门实质性的社会科学,既研究社会生活的客观规律,也研究统计方法。统计学是继承和发展基础统计的理论成果,坚持统计学的社会科学性质,使统计理论研究更接近统计工作实际,在国家和社会得到广泛发展。
2统计学中的几种统计思想
2.1统计思想的形成
统计思想不是天然形成的,需要经历统计观念、统计意识、统计理念等阶段。统计思想是根据人类社会需求的变化而开展各种统计实践、统计理论研究与概括,才能逐步形成系统的统计思想。
2.2比较常用的几种统计思想
所谓统计思想,就是统计实际工作、统计学理论及应用研究中必须遵循的基本理念和指导思想。统计思想主要包括:均值思想、变异思想、估计思想、相关思想、拟合思想、检验思想。现分述如下:
2.2.1均值思想
均值是对所要研究对象的简明而重要的代表。均值概念几乎涉及所有统计学理论,是统计学的基本思想。均值思想也要求从总体上看问题,但要求观察其一般发展趋势,避免个别偶然现象的干扰,故也体现了总体观。
2.2.2变异思想
统计研究同类现象的总体特征,它的前提则是总体各单位的特征存在着差异。统计方法就是要认识事物数量方面的差异。统计学反映变异情况较基本的概念是方差,是表示“变异”的“一般水平”的概念。平均与变异都是对同类事物特征的抽象和宏观度量。
2.2.3估计思想
估计以样本推测总体,是对同类事物的由此及彼式的认识方法。使用估计方法有一个预设:样本与总体具有相同的性质。样本才能代表总体。但样本的代表性受偶然因素影响,在估计理论对置信程度的测量就是保持逻辑严谨的必要步骤。
2.2.4相关思想
事物是普遍联系的,在变化中,经常出现一些事物相随共变或相随共现的情况,总体又是由许多个别事务所组成,这些个别事物是相互关联的,而我们所研究的事物总体又是在同质性的基础上形成。因而,总体中的个体之间、这一总体与另一总体之间总是相互关联的。
2.2.5拟合思想
拟合是对不同类型事物之间关系之表象的抽象。任何一个单一的关系必须依赖其他关系而存在,所有实际事物的关系都表现得非常复杂,这种方法就是对规律或趋势的拟合。拟合的成果是模型,反映一般趋势。趋势表达的是“事物和关系的变化过程在数量上所体现的模式和基于此而预示的可能性”。
2.2.6检验思想
统计方法总是归纳性的,其结论永远带有一定的或然性,基于局部特征和规律所推广出来的判断不可能完全可信,检验过程就是利用样本的实际资料来检验事先对总体某些数量特征的假设是否可信。
2.3统计思想的特点
作为一门应用统计学,它从数理统计学派汲取新的营养,并且越来越广泛的应用数学方法,联系也越来越密切,但在统计思想的体现上与通用学派相比,还有着自己的特别之处。其基本特点能从以下四个方面体现出:
(1)统计思想强调方法性与应用性的统一;
(2)统计思想强调科学性与艺术性的统一;
(3)统计思想强调客观性与主观性的统一;
(4)统计思想强调定性分析与定量分析的统一。
3对统计思想的一些思考
3.1要更正当前存在的一些不正确的思想认识
英国著名生物学家、统计学家高尔顿曾经说过:“统计学具有处理复杂问题的非凡能力,当科学的探索者在前进的过程中荆棘载途时,唯有统计学可以帮助他们打开一条通道”。但事实并非这么简单,因为我们所面临的现实问题可能要比想象的复杂得多。此外,有些人认为方法越复杂越科学,在实际的分析研究中,喜欢简单问题复杂化,似乎这样才能显示其科学含量。其实,真正的科学是使复杂的问题简单化而不是追求复杂化。与此相关联的是,有些人认为只有推断统计才是科学,描述统计不是科学,并延伸扩大到只有数理统计是科学、社会经济统计不是科学这样的认识。这种认识是极其错误的,至少是对社会经济统计的无知。比利时数学家凯特勒不仅研究概率论,并且注重于把统计学应用于人类事物,试图把统计学创建成改良社会的一种工具。经济学和人口统计学中的某些近代概念,如GNP、人口增长率等等,均是凯特勒及其弟子们的遗产。
3.2要不断拓展统计思维方式
统计学是以归纳推理或归纳思维为主要的逻辑方式的。众所周知,逻辑推理方式主要有两种:归纳推理和演绎推理。归纳推理是基于观测到的数据信息(尤其是不完全甚至劣质的信息)去产生新的知识或去验证一个假设,即以所掌握的数据信息为依据,归纳得出具有一般特征的结论。归纳推理是要在数据信息的基础上透过偶然性去发现必然性。演绎推理是对统计认识能力的深化,尤其是在根据必然性去研究和认识偶然性方面,具有很大的作用。
3.3深化对数据分析的认识
任何统计研究都离不开数据分析。因为这是得到统计研究结论的必要环节。虽然统计分析的形式随时代的推移而变化着,但是“从数据中提取一切信息”或者“归纳和揭示”作为统计分析的目的却一直没有改变。对统计数据分析的原因有以下三个方面:一是基于同样的数据会得出不同、甚至相反的分析结论;二是我们所面对的分析数据有时是缺损的或存在不真实性;三是我们所面对的分析数据有时则又是海量的,让人无从下手。虽然统计数据分析已经经历了描述性数据分析(DDA)、推断性数据分析(IDA)和探索性数据分析(EDA)等阶段,分析的方法技术已经有了质的飞跃,但与人类不断提高的要求相比,存在的问题似乎也越来越多。所以,我们必须深化对数据分析的认识,围绕“准确解答特定问题并且从数据中获取一切有效信息”这一目的,不断拓展研究思路,继续开展数据分析方法技术的研究。
参考文献:
[1]陈福贵.统计思想雏议[J]北京统计,2004,(05).
[2]庞有贵.统计工作及统计思想[J]科技情报开发与经济,2004,(03).
目前,医学统计学的很多原理和方法已成功地应用于这些新研究之中,并在此基础之上有了新的发展和改进。如概率分布的知识与序列相似性分析、蛋白质分类等技术密切相关;方差分析、非参数检验方法经改进和结合后在基因表达数据的前期分析中发挥了较好的作用;而聚类分析、判别分析、相关分析这些大家所熟知的统计学方法更是在基因分类和调控网络的建立中得到了广泛的应用。在进行医学统计学课堂教学时加入生物信息学方面的应用实例,不仅可以使学员了解本学科研究的前沿和医学、生物信息学研究的新发展,还可以提高学员对于医学统计学理论学习的兴趣,掌握先进的生物实验数据分析方法,提高今后从事医学科研的能力。下面,本文在回顾医学统计学授课主要内容的基础上,就医学和生物信息学中的可能应用举例如下:
一、概率分布
概率分布(probabilitydistribution)是医学统计学中多种统计分析方法的理论基础。授课内容一般包括:二项分布、Possion分布、正态分布、t分布、F分布等。
借助概率分布常常可以帮助我们了解生命指标的特征、医学现象的发生规律等等。例如,临床检验中计量实验室指标的参考值范围就是依据正态分布和t分布的原理计算得到;许多医学试验的“阳性”结果服从二项分布,因此它被广泛用于化学毒性的生物鉴定、样本中某疾病阳性率的区间估计等;而一定人群中诸如遗传缺陷、癌症等发病率很低的非传染性疾病患病数或死亡数的分布,单位面积(或容积)内细菌数的分布等都服从Poisson分布,我们就可以借助Poisson分布的原理定量地对上述现象进行研究。
在生物信息学中概率分布也有一定应用。例如,Poisson分布可以用于基因(蛋白质)序列的相似性分析。被研究者广泛使用的分析工具BLAST(BasicLocalAlignmentSearchTool)能迅速将研究者提交的蛋白质(或DNA)数据与公开数据库进行相似性序列比对。对于序列a和b,BLAST发现的高得分匹配区称为HSPs。而HSP得分超过阈值t的概率P(H(a,b)>t)可以依据Poisson分布的性质计算得到。
二、假设检验
假设检验(hypothesis)是医学统计学中统计推断部分的重要内容。假设检验根据反证法和小概率原理,首先依据资料性质和所需解决的问题,建立检验假设;在假设该检验假设成立的前提下,采用适当的检验方法,根据样本算得相应的检验统计量;最后,依据概率分布的特点和算得的检验统计量的大小来判断是否支持所建立的检验假设,进而推断总体上该假设是否成立。其基本方法包括:u检验、t检验、方差分析(ANOVA)和非参数检验方法。
假设检验为医学研究提供了一种很好的由样本推断总体的方法。例如,随机抽取某市一定年龄段中100名儿童,将其平均身高(样本均数)与该年龄段儿童应有的标准平均身高(总体均数)做u检验,其检验结果可以帮助我们推断出该市该年龄段儿童身高是否与标准身高一致,为了解该市该年龄段儿童的生长发育水平提供参考。又如,医学中常常可以采用t检验、秩和检验比较两种药物的疗效有无差别;用2检验比较不同治疗方法的有效率是否相同等等。
这些假设检验的方法在生物实验资料的分析前期应用较多,但由于研究目的和资料性质不同,一般会对某些方法进行适当调整和结合。
例如,基于基因芯片实验数据寻找差异表达基因的问题。基因芯片(genechip)是近年来实验分子生物学的技术突破之一,它允许研究者在一次实验中获得成千上万条基因在设定实验条件下的表达数据。为了从这海量的数据中寻找有意义的信息,在对基因表达数据进行分析的过程中,找到那些在若干实验组中表达水平有明显差异的基因是比较基础和前期的方法。这些基因常常被称为“差异表达基因”,或者“显著性基因”。如果将不同实验条件下某条基因表达水平的重复测量数据看作一个样本,寻找差异表达基因的问题其实就可以采用假设检验方法加以解决。
如果表达数据服从正态分布,可以采用t-检验(或者方差分析)比较两样本(或多样本)平均表达水平的差异。
但是,由于表达数据很难满足正态性假定,目前常用的方法基于非参数检验的思想,并对其进行了改进。该方法分为两步:首先,选择一个统计量对基因排秩,用秩代替表达值本身;其次,为排秩统计量选择一个判别值,在其之上的值判定为差异显著。常用的排秩统计量有:任一特定基因在重复序列中表达水平M值的均值;考虑到基因在不同序列上变异程度的统计量,其中,s是M的标准差;以及用经验Bayes方法修正后的t-统计量:,修正值a由M的方差s2的均数和标准差估计得到。
三、一些高级统计方法在基因研究中的应用
(一)聚类分析
聚类分析(clusteringanalysis)是按照“物以类聚”的原则,根据聚类对象的某些性质与特征,运用统计分析的方法,将聚类对象比较相似或相近的归并为同一类。使得各类内的差异相对较小,类与类间的差异相对较大1。聚类分析作为一种探索性的统计分析方法,其基本内容包括:相似性度量方法、系统聚类法(HierarchicalClustering)、K-means聚类法、SOM方法等。
聚类分析可以帮助我们解决医学中诸如:人的体型分类,某种疾病从发生、发展到治愈不同阶段的划分,青少年生长发育分期的确定等问题。
近年来随着基因表达谱数据的不断积累,聚类分析已成为发掘基因信息的有效工具。在基因表达研究中,一项主要的任务是从基因表达数据中识别出基因的共同表达模式,由此将基因分成不同的种类,以便更为深入地了解其生物功能及关联性。这种探索完全未知的数据特征的方法就是聚类分析,生物信息学中又称为无监督的分析(UnsupervisedAnalysis)。常用方法是利用基因表达数据对基因(样本)进行聚类,将具有相同表达模式的基因(样本)聚为一类,根据聚类结果通过已知基因(样本)的功能去认识那些未知功能的基因。对于基因表达数据而言,系统聚类法易于使用、应用广泛,其结果——系统树图能提供一个可视化的数据结构,直观具体,便于理解。而在几种相似性的计算方法中,平均联接法(AverageLinkageClustering)一般能给出较为合理的聚类结果2。
(二)判别分析
判别分析(discriminantanalysis)是根据观测到的某些指标的数据对所研究的对象建立判别函数,并进行分类的一种多元统计分析方法。它与聚类分析都是研究分类问题,所不同的是判别分析是在已知分类的前提下,判定观察对象的归属3。其基本方法包括:Fisher线性判别(FLD)、最邻近分类法(k-NearestNeighborClassifiers)、分类树算法(ClassificationTreeAlgorithm),人工神经网络(ANNs)和支持向量机(SVMs)。
判别分析常用于临床辅助鉴别诊断,计量诊断学就是以判别分析为主要基础迅速发展起来的一门科学。如临床医生根据患者的主诉、体征及检查结果作出诊断;根据各种症状的严重程度预测病人的预后或进行某些治疗方法的疗效评估;以及流行病学中某些疾病的早期预报,环境污染程度的坚定及环保措施、劳保措施的效果评估等。
在生物信息学针对基因的研究工作中,由于借助了精确的生物实验,研究者通常能得到基因(样本)的准确分类,如,基因的功能类、样本归结于疾病(正常)状态等等。当利用了这些分类信息时,就可以采用判别分析的方法对基因进行分类,生物信息学中又称为有监督的分析(SupervisedAnalysis)。例如,基因表达数据分析中,对于已经过滤的基因,前三种方法的应用较为简单。而支持向量机(SVMs)和人工神经网络(ANNs)是两种较新,但很有应用前景的方法。
(三)相关分析
相关分析(correlationanalysis)是医学统计学中研究两变量间关系的重要方法。它借助相关系数来衡量两变量之间的关系是否存在、关系的强弱,以及相互影响的方向。其基本内容包括:线性相关系数、秩相关系数、相关系数的检验、典型相关分析等。
我们常常可以借助相关分析判断研究者所感兴趣的两个医学现象之间是否存在联系。例如,采用秩相关分析我们发现某种食物中黄曲霉毒素相对含量与肝癌死亡率间存在正相关关系;采用线性相关方法发现中年女性体重与血压之间具有非常密切的正相关关系等等。
生物信息学中可以利用相关分析建立基因调控网络。如果将两个不同的基因在不同实验条件下的表达看作是两个变量,相关分析所研究的正是两者之间的调控关系。如采用线性相关系数进行两基因关系的分析时,其大小反应了基因调控关系的强弱,符号则反应了两基因是协同关系(相关系数为正),还是抑制关系(相关系数为负)。
四、意义
生物信息学不仅是医学统计学的研究前沿,更是医学研究由宏观向微观拓展的重要领域,其研究内容已逐渐为多数医学院校的学员了解和熟悉。而如何对新技术产生的生物实验数据进行准确合理的分析,却成为生物信息学研究的主要瓶颈之一。