首页 > 文章中心 > 统计学变量的分类

统计学变量的分类

前言:想要写出一篇令人眼前一亮的文章吗?我们特意为您整理了5篇统计学变量的分类范文,相信会为您的写作带来帮助,发现更多的写作思路和灵感。

统计学变量的分类

统计学变量的分类范文第1篇

关键词:ArcGIS 土壤 区域 空间变异

中图分类号:X53 文献标识码:A 文章编号:1007-3973(2012)010-108-02

1 引言

随着信息社会的到来,人类社会进入了信息大爆炸的时代。面对海量的信息,人们对信息的要求发生了巨大变化。随着计算机技术的出现和快速发展,对空间位置信息和其他属性类信息进行统一管理的地理信息系统也随之快速发展起来了。

在众多的地理信息软件中,美国公司ESRI公司推出的ArcGIS地理信息平台是最具代表性的GIS软件平台,其强大的空间分析处理工具和不断更新、完善的空间分析功能是其他软件无法比拟的。

土壤是在岩石风化产物基础上发育形成的自然体,土壤中还有各种重金属,通过ArcGIS的地统计模块能够揭示土壤重金属的空间变异规律和空间分布,为实现土壤可持续利用和区域规划提供理论依据。

2 ArcGIS中地统计模块

来自法国的统计学家G.Matheron在经过许多研究和分析后后创立了一门崭新的统计学分支:地统计学。地统计学的基础是区域化变量,以变异函数为工具,研究的对象是具有随机性和结构性的自然现象。

2.1 地统计基本原理

2.1.1 地统计假设

随机性,正态分布和平稳性分别是地统计原理的三个基本假设。在平稳性中有两大类:均值平稳和二阶平稳、内蕴平稳。均值平稳假设均值是与位置无关的一个常量;二阶平稳与协方差有联系;内蕴平稳与半变异函数有联系。二阶平稳假设在空间上的任意两点,如果它们的距离和方向都相同,那么它们的协方差也是相同的;内蕴平稳则假设在空间上的任意两点,如果它们的距离和方向是相同的,那么它们的方差也是相同的。

统计学变量的分类范文第2篇

关键词:生物医学数据;统计建模;预测模型;心得体会

随着生物信息技术的飞速发展,生物医学研究领域的数据呈几何级增长。近年来,生物医学大数据受到学者们的广泛关注。生物医学大数据具有典型的“4V”特征:体量巨大(volume)、种类繁多(variety)、实时更新(velocity)、价值隐藏(value)[1];“3H”特点:高维(highdimension)、高度计算复杂性(highcomplexity)、高度不确定性(highuncertainty)[2]。因此,综合利用生物学、医学、数学、流行病学、统计学、计算机学等多个学科的方法和手段,从中挖掘“有价值”的信息,为生物医学研究提供确凿有效的证据,显得尤为重要。笔者以肺癌全基因组关联研究(genome-wideas-sociationstudy,GWAS)为例,结合理论学习和案例实践的切身体会,浅谈利用GWAS数据建立肺癌风险预测模型的心得体会。

一、严谨的数据质量控制体系不容忽视

由于存在检测、观察、填写或录入错误,未经数据质控的原始数据极可能含有一些异常,甚至错误的观测值。在研究设计之初,便要尽可能考虑规避产生错误数据。另外,统计建模之前,仍然必须对原始数据再次进行质量控制。在GWAS中,要同时对行(样本)、列(位点)进行质量评价。例如,删除次等位基因频率低于5%、缺失率超过5%或哈代不平衡的位点;删除分型失败率超过5%、问卷性别与遗传性别不一致、存在血缘关系、属于离群值的样本[3]。另外,同时需要对流行病学问卷及临床数据进行核查。只有对数据进行清理后,才能用于后续关联分析、统计建模。

二、合理的建模方法和策略值得精雕细琢

对于GWAS高维数据,合理的方法和策略不仅要考虑统计学性能(一类错误、检验效能、预测精度),还需要考虑分析效率(计算速度)。因此,研究者应该要深入思考,为研究项目量身定制一套“合理”的方法和策略。然而,现有的统计学模型和方法往往都有相应的应用条件。实际数据由于其变量结构的复杂性,不一定完全满足所有的应用条件。并且,简单的算法速度快,但统计性能相对低;复杂算法需要牺牲计算速度来提升统计性能。因此,研究者可能需要制定多个备选方案。结合建模步骤,笔者将从以下几个方面,浅谈个人心得体会。1.初始模型:一般拟合logistic回归模型评价肺癌风险。模型中往往需要纳入一些协变量,例如:年龄、性别、吸烟、人群分层等。一般参考以下纳入原则:(a)在模型中有统计学意义(P≤0.05);(b)即便在模型中无统计学意义,但绝大多数同类研究显示其是公认的影响因素。某些协变量可能是位点的混杂因素,例如人群分层。如果GWAS中忽视调整混杂因素的影响,则有可能导致误报噪音位点的一类错误膨胀,或识别致病位点的检验效能降低[4]。此外,研究者还需要考察协变量进入模型的形式。一般而言,无序分类变量以哑变量形式进入模型。当某些类别样本量特别小,需要进行类别合并。有序分类变量、连续性变量则需要考虑是否以非线性的形式进入模型。一种最简单的方式是,将连续性变量转化为有序分类变量,并以哑变量形式进入模型。如果哑变量各组的系数呈现线性递增的趋势,则提示原始变量与结局变量间存在线性关系。否则,可采用哑变量、样条函数等方法处理非线性关系。2.因素筛选:研究者需要从GWAS数据50万位点中筛选出肺癌相关位点,加入初始模型,以提高模型的预测精度。常规做法是,在初始模型中逐个纳入位点,对位点的主效应进行假设检验。因检验次数达50万次,研究者必须要考虑多重比较所致的一类错误膨胀。常见一类错误控制方法有Bonferroni法和FDR法。前者较为严格,后者较为宽松。GWAS识别位点一般采用“宁缺毋滥”的原则,倾向于采用严格的校正方法。除此之外,研究者还要在多个独立的人群中验证初筛的位点。如果位点在多个人群中都显示与结局存在统计学关联,则认为该位点是潜在的影响因素。除基因位点主效应外,研究者还需要关注基因-基因、基因-环境交互作用。复杂疾病往由环境、基因相互影响,共同导致。因此,有必要在模型中对交互作用进行评估。例如,基因-环境交互作用可以显著提高肺癌风险预测模型的预测精度[5]。有效的降维策略能够提高因素筛选的效率。笔者曾采用“信息熵初筛对数线性模型再筛多因素lo-gistic回归模型确认”的降维策略进行全基因组基因-基因交互作用分析[6]。信息熵方法计算速度快,且其统计量总是不小于对数线性模型,不会出现漏检的情况。前两步可以检验次数将1011次缩减至105次。检验次数降低6个数量级。最后一步,利用调整协变量的logistic回归模型对关联结果加以确认,防止出现假阳性。当然,研究者也可以根据项目“量体裁衣”,选择其他降维方法,例如:随机森林(randomforest)、多因子降维(multifactordimensionalityreduction,MDR)等。3.预测模型:经过遗传因素筛选步骤后,研究者可通逐步回归、LASSO等方法,建立含有与协变量、遗传位点的主效应项、交互作用项的风险预测模型。根据受试者工作特征曲线(receiveroperatingcharacteristiccurve,ROC)确定一个风险阈值,使得风险预测的灵敏度、特异度同时达到最优。若样本的预测概率≥阈值,则预测该样本为肺癌。4.模型评价:从统计学的角度,可采用ROC曲线下面积(areaunderROC,AUC)来评价模型的优劣[7]。此外,还可以采用交叉验证的方式评价模型,即:训练集拟合的预测模型对测试集的样本进行风险估计,并计算AUC。然而,AUC并非衡量模型的唯一标准。如果预测模型形式简单,应用便捷,即便AUC稍有逊色,也是优秀的模型之一。所以,笔者认为需要综合考虑,权衡利弊。

三、熟练的软件操作和编程技能令人事半功倍

扎实的理论基础固然重要,熟练的软件操作亦不可或缺。笔者建议研究者不要拘泥于某一软件,本着“方便原则”利用多个软件进行数据处理、统计建模。根据笔者的经验,一般不太可能一次性完成建模工作,往往需要不断调整分析策略和分析方法。因此,笔者建议研究者适当撰写一些项目相关的通用程序。如果需要重新建模,只需要修改程序参数,微调代码就可以建立新的预测模型。因此,这就要求研究者“功在平时”以培养编程能力。基于肺癌GWAS风险预测模型的建模体会,笔者建议研究者需要重视数据质量控制体系、推敲建模方法和策略、培养熟练软件操作技能。

参考文献:

[1]王波,吕筠,李立明.生物医学大数据:现状与展望[J].中华流行病学杂志,2014,35(6):617-620.

[2]宁康,陈挺.生物医学大数据的现状与展望[J].科学通报,2015,(z1):534-546.

[3]陈峰,柏建岭,赵杨,荀鹏程.全基因组关联研究中的统计分析方法[J].中华流行病学杂志,2011,32(4):400-404.

[4]ZhaoY,ChenF,ZhaiR,LinX,WangZ,SuL,ChristianiDC.Correctionforpopulationstratificationinrandomforestanalysis[J].InternationalJournalofEpidemiology,2012,41(6):1798-1806.

[5]ZhangR,ChuM,ZhaoY,WuC,GuoH,ShiY,DaiJ,WeiY,JinG,MaH,DongJ,YiH,BaiJ,GongJ,SunC,ZhuM,WuT,HuZ,LinD,ShenH,ChenF.Agenome-widegene-environmentinteractionanalysisfortobaccosmokeandlungcancersusceptibility[J].Carcinogenesis,2014,35(7):1528-1535.

[6]ChuM,ZhangR,ZhaoY,WuC,GuoH,ZhouB,LuJ,ShiY,DaiJ,JinG,MaH,DongJ,WeiY,WangC,GongJ,SunC,ZhuM,QiuY,WuT,HuZ,LinD,ShenH,ChenF.Agenome-widegene-geneinteractionanalysisidentifiesanepistaticgenepairforlungcancersusceptibilityinHanChinese[J].Carcinogenesis,2014,35(3):572-577.

统计学变量的分类范文第3篇

关键词:精神分裂症 认知矫正治疗 认知缺陷 社会功能

一、对象和方法

(一)对象

来自2007年10月至2008年4月吉林省公安厅安康医院的精神分裂症恢复期患者,均在我院痊愈出院,按纳入标准和排除标准选择86例,其中男42例,女44例;平均年龄(32.38±9.79)岁;平均受教育年限(7.20±3.06)年;用药剂量换算成氯丙嗪,平均剂量为(216±142)mg。入组标准:符合中国精神障碍分类与诊断标准第3版中精神分裂症诊断标准;简明精神病量表(BPRS)分值≤36;临床总体印象量表(CGI)分值≤2为恢复期精神分裂症患者;单一用药者;住院最后年龄18~50岁;获得受试者或监护人的书面知情同意愿意参加神经心理测验与认知矫正治疗。排除标准:患有严重躯体疾病;酒、药物依赖;服药依从性不良者;正在接受其他药物(非抗精神病药)、心理治疗者;妊娠或哺乳期妇女。

(二)方法

应用随机表法将患者分为认知矫正治疗组(治疗组)和对照组,各43例。两组各有3例因病情波动而脱落,最终80例患者进入结果分析。采用Wykes等改编的神经认知矫正手册(汉化)为治疗工具,由经过培训的治疗师的指导下,对认知矫正治疗组患者进行认知作业练习,包括认知灵活性、工作记忆、计划执行功能3大功能模块。每周练习4次,每次45min,持续6个月。对照组予一般工娱活动,主要包括音乐治疗、个人生活技能训练和手工制作等。在治疗前和治疗6个月,两组患者分别进行社会功能缺陷筛选量表(SDSS)、BPRS、WCST量表评定。

(三)统计分析

所得数据输入计算机,采用SAS统计软件处理,治疗前后采用配对t检验,两组间采用t检验;以SDSS总分为应变量,分别与WCST(自变量:X1正确反应数、X2错误应答数、X3持续错误反应数、X4非持续错误、X5分类数)进行方差分析、多重线性回归和相关分析。脱落病例不纳入统计分析。

二、结果

(一)两组治疗前后BPRS评分比较

两组患者治疗前后BPRS总分差异均无统计学意义(P均>0.05)。

(二)两组治疗前后SDSS评分比较

治疗前后SDSS总分比较,对照组患者差异无统计学意义(P>0.05),治疗组患者治疗后明显下降(P<0.05);两组间SDSS总分比较,治疗前差异无统计学意义(P>0.05),治疗后治疗组较对照组下降明显(P<0.05)。

(三)两组治疗前后认知功能的比较

治疗6个月后,治疗组WCST中正确反应数明显增加,持续错误反应数明显减少;对照组WCST中持续错误反应数明显减少;治疗前后两组WCST各项评分差异均无统计学意义(P均>0.05)。

(四)多元回归分析

以治疗前SDSS为应变量,以治疗前WCST各项指标为自变量进行逐步回归分析,结果显示:变量X1正确反应数、X3持续错误数、X5分类数进入回归方程。由标准偏回归系数的绝对值大小排序依此为X3>X1>X5。对回归模型进行方差分析显示F=36.84,P<0.001,说明WCST与SDSS所拟合的回归方程具有统计学意义。以治疗后SDSS为应变量,以治疗后WCSTX1、X2、X3、X4和X5为自变量进行逐步回归分析,结果显示:变量X3持续错误反应数进入回归方程。对回归模型进行方差分析显示F=58.89,P<0.001,说明WCST与SDSS所拟合的回归方程具有统计学意义。

三、讨论

国外研究普遍认为精神分裂症患者的个人生活技能、社会交往、职业能力、婚姻家庭等社会功能常有明显下降,且与患者认识缺陷有关。认知矫正治疗能够改善精神分裂症患者的认知功能和社会功能,故研究他们之间的关系具有重要意义。

本研究显示,恢复期精神分裂症患者经过6个月的认知功能矫正治疗,患者的精神症状无明显变化,而认知功能与社会功能则有明显改善,这与目前观点认为精神症状与认知缺陷是两个独立的症状群相符。本研究采用WCST对精神分裂症恢复期患者的认知功能作综合评定,SDSS总分与WCST的多元回归分析显示,认知功能与社会功能的改善有明显相关性,这与McGurk等的研究相符,其中WCST中持续错误反应数最具指标意义。提示认知功能的恢复水平可能影响着患者社会功能的改善程度。由于本研究样本较小,且社会功能的影响因素较多等,本研究结果能否较好的反映出精神分裂症患者认知功能与社会功能的变化关系并作为预测指标,尚有待进一步的研究澄清。

综上所述,本研究显示认知矫正治疗能明显改善精神分裂症患者认知缺陷和社会功能。精神分裂症患者认知缺陷的恢复水平影响着患者社会功能的改善程度,并有可能成为一项预测指标。促进精神分裂症患者认知功能的恢复,将为患者最终回归社会带来希望,值得深入探索。

参考文献:

[1]Medalia A,Lim R.Treatment of cognitive dysfunction in Psychiatric Disorders[J].Journal of Psychiatric Practice,2004,10:17-25.

统计学变量的分类范文第4篇

关键词:儿童 免疫接种 满意度

Doi:10.3969/j.issn.1671-8801.2014.02.523

【中图分类号】R-1 【文献标识码】B 【文章编号】1671-8801(2014)02-0352-02

社会经济水平不断发展,人们的生活水平不断提高,公众对健康意识也在不断加强,家长对儿童免疫接种门诊服务需求已由疾病的预防转向预防接种的安全性问题。加强和改进儿童免疫接种工作,完善医疗服务体系,提高服务水平和服务质量是凤山县儿童免疫接种门诊工作的重要课题,家长对儿童免疫接种门诊服务的满意度是反映医疗水平和服务质量的直接指标[1]。为了解家长对儿童免疫接种门诊服务满意度,探究影响工作质量的关键因素及薄弱环节,于2013年9月对凤山县儿童家长进行问卷调查,现报道如下:

1 资料与方法

1.1 一般资料。根据凤山县各儿童免疫接种门诊的建设等级,采用分层随机抽样的方法,对凤山县各社区650名儿童家长进行问卷调查,获得有效问卷565份,有效率为86.92%。

1.2 方法。自行设计问卷调查表,调查内容包括:接种门诊环境卫生状况、对医护人员的技术水平、医护人员对家长问题回答的情况、对疫苗相关知识的介绍、通知接种疫苗的方式、接种前的查体、打完疫苗对注意事项的告知情况、儿童家长对接种门诊位置的便捷程度、接种门诊的医护人员对家长或儿童的熟悉程度等九项内容。

1.3 统计分析。采用 Epidata3.1建立数据库进行数据录入,采用SPSS12.0软件进行统计学分析。对接种门诊工作情况的满意度用率表示,运用多分类有序反应变量 Logistic回归分析满意度的主要影响因素。

2 结果

2.1 家长对儿童免疫接种门诊服务满意度。调查显示,有69.2%的家长对该地区免疫接种门诊离家庭距离的设置表示满意,有54.9%的家长对接种门诊的卫生状况感到满意,有47.8%的家长对医生和护士的技术水平表示比较满意,有50.9%的家长对医护人员对儿童的熟悉程度表示不满意,有32.2%的家长对接种前的健康检查表示不满意,具体数据分析见下表1所示:

表1 家长对儿童免疫接种门诊服务满意度(%)

2.2 家长主观满意度影响因素分析。调查显示,有63.8%的家长对接种门诊的工作总体评价比较满意,35.4%表示一般,6.1%表示不太满意。以被调查者主观总满意程度为应变量,以预设影响计划免疫服务满意度的9种因素为自变量以进行多分类有序反应变量Logistic回归分析,影响主观满意度的变量从大到小依次为:接种门诊的卫生状况(OR=2.81)、医护人员的技术水平(OR=2.59)、医护人员回答家长问题的情况(OR=2.23)、对疫苗相关知识的介绍(OR=1.74)、通知接种疫苗的方式(OR=1.66)、接种前的查体(OR=1.58)、打完疫苗对注意事项的告之情况(OR=1.51)。其中接种点设置的距离和医患熟悉程度两项因素无统计学意义(P>0.05),其它因素数据差异均有统计学意义。

3 结论

服务对象对医疗服务的满意度调查是反映医疗服务质量的重要指标,也是反映医疗管理效果的最有效方式之一,现已经在商业服务和临床医疗服务领域得到广泛的应用[2]。随着社会经济的不断发展以及人们生活水平的不断提高,公共卫生服务体系越来越重视医疗水平和服务质量的提高,也越来越多对服务对象满意度展开调查,进而探究影响工作质量的关键因素及薄弱环节,为进一步改善医疗服务质量和提高医疗服务水平提出依据[3]。本次调查凤山县儿童免疫接种服务满意度的直接服务对象是儿童,由于儿童对其接受服务的效果质量不能做出有效评价,因此,本调查以儿童家长为调查对象展开调查以了解目前凤山目前儿童免疫接种的服务质量。

本次调查显示,家长对凤山县儿童免疫接种服务综合满意度较高,在调查九条项目中,家长对该地区免疫接种门诊离家庭距离的设置、接种门诊的卫生状况以及医生和护士的技术水平满意度比较高,而对医护人员和儿童的熟悉程度以及接种前的健康检查表示不满意,而经多分类有序反应变量Logistic回归分析显示,影响家长主观满意度的因素有:接种门诊环境卫生状况、对医护人员的技术水平、医护人员对家长问题回答的情况、对疫苗相关知识的介绍、通知接种疫苗的方式、接种前的查体、打完疫苗对注意事项的告知情况,并且影响家长主观满意度各因素经统计学处理均有统计学意义(P0.05),其它因素数据差异均有统计学意义。由以上数据显示可以说明,影响儿童家长满意度不仅与医疗技术水平、服务方式、服务质量等情况有关,而且与医疗卫生环境、心理状态等情况相关。

目前,儿童免疫接种门诊医护人员注重医疗技术水平、服务方式以及服务质量的提高,然而医护人员忽视对服务对象的人文关怀,忽视医护人员与儿童家长间的交流[4]。医护人员与家长的交流可以使家长获取更多的有关疫苗预防疾病的知识、有关接种的禁忌症以及有关接种后发生副反应的有效处理方法等,从而有效的满足家长对儿童免疫接种的服务需求,提高家长对儿童免疫接种的满意度。

综上所述,随着规范化儿童免疫接种门诊建设的不断推进,凤山县儿童免疫接种门诊已基本达到规范化标准,家长对儿童免疫接种门诊的满意度较高。但随着经济的发展和公众健康意识的不断加强,家长对儿童免疫接种的服务需求层次也在提高,除标准操作流程外,家长希望得到人性化的服务设施[5]。儿童免疫接种门诊的医护人员要充分认识到服务对象的现实需求以及感知、理解能力,对儿童免疫接种工作进行针对性开展,使儿童免疫接种门诊服务实现疾病的预防向预防接种的安全性的转变,提高家长对儿童免疫接种门诊的满意度,进而提高儿童家长主动带孩子接种疫苗的积极性和各类疫苗的接种率,更有效地控制和减少各种传染病的传播。

参考文献

[1] 张,王文军,李晶,陈廷,刘琥,宋烨.济宁市儿童计划免疫接种门诊服务满意度调查[J].中国公共卫生,2009,10(03):1195-1196

[2] 张小芳.太原市西山矿区计划免疫接种门诊服务满意度调查与分析[J].医学信息(上旬刊),2010,11(10):3989-3990

[3] 唐申,韦巧燕,陈建锋,董妃兴.儿童家长预防接种知识知晓情况现状分析[J].中国现代医药杂志,2012,10(03):58-60

统计学变量的分类范文第5篇

关键词:多元统计分析;主成分分析;聚类分析

科学研究是一个反复学习的过程,无论是研究自然现象还是社会现象,人们往往以解释某种现象或者预测某种变化趋势作为目标,然后通过收集数据并分析数据对这些目标进行检验,通常还会对所研究的现象提出一个改进的解释.在这个过程个,常常需要同时观测多个指标,例如,要衡量一个地区的经济发展状况,需要观测的指标有:总产值、利润、效益、劳动生产率、万元产值能耗、固定资产、流动资金周转率、物价、信贷、税收等等;在医学诊断中,要判断某人是否患病,也需要做多项指标的体检,如:血压、脉搏跳动次数、白血球、体温等等.保这样需要处理多个变量的观测数据的情况,如何进行有效的分析和研究呢?如果用一元统计方法,则必须把多个变量分开分析,一次处理一个变量,这样做有时候也许比较方便有效,但由于这种方法忽视了诸多变量间可能存在的相关性。因此,一般会丢失很多信息,另一种方法就是多元统计方法,它同时对多个变量的观测数据进行分析,这样的分析对谙各变量之间的关系、相依性和相对重要性都能提供有用信息。

一、多元统计分析研究的主要内容

在当前科技和经济迅速发展的今天,在国民经济许多领域中,特别是对社会现象的分析,只停留在定性分析的基础上是不够的,为提高科学性、可靠性,通常需要定性和定量的分析。如果说一元统计方法是研究一个随机变量统计科学的规律,那么多元统计分析方法是研究多个随机变量之间相互依赖关系以及内在统计规律性的一门统计学科。同时,利用多远统计分析中不同的方法可以对研究对象进行分析和简化。多元统计分析包括的主要内容有:聚类分析、判别分析、主成分分析、因子分析对应分析、典型相关分析等。

二、多元统计分析方法在企业中的应用

在这里,重点研究聚类分析、判别分析、主成分分析、因子分析方法及其在企业中的应用。

1.聚类分析。随着生产技术和科学的发展,人类的认识不断加深,分类越来越细,要求也越来越高,光凭经验和专业知识是不能确切分类的,往往需要定量和定性的分析结合起来去分类,于是数学工具逐渐被引进分类学中,形成了数值分类学。后来随着多元分析的引进,聚类分析逐渐从数值分类学中脱离出来形成一个相对独立的分支。

在企业销售领域,销售商需要考虑对不同生产企业生产的同名称商品的分类问题。例如,某商场对销售20种啤酒进行分类,以便对不同的类别的啤酒采用不同的销售策略,变量包括啤酒名称、热量卡路里、钠含量、酒精含量、价格。根据以上指标,利用聚类分析可以实现把同一类型的啤酒企业归到同一类别。再如商业企业制定商品销售价格时,需要对某个大城市的物价指数进行考察,而物价指数很多,有农用生产物价指数、服务项目物价指数、食品消费物价指数、零售价格指数等,因而要先对这些价格指数利用聚类分析方法进行分析。

2.判别分析。在生产、科研和日常生活中经常需要根据观测到的数据资料,对所研究的对象进行分类。判别分析是判断样品所属类型的一种多元统计分析方法,其目的是对已知分类的数据建立由数值指标构成的分类规则,然后把这样的规则应用到未知分类的样本中去分类。

在聚类分析中,某商场对销售的20种啤酒进行分类,假定分类结构为一级品、二级品和三级品,现在判断新商标的啤酒属于哪个级别的产品就需要用判别分析。

3.主成分分析是一种常用的多元统计分析方法,相对于其他统计学方法,更强调用数据本身来指导分析过程,而不是依赖事先给定的某些假设。主要目的是希望用较少的变量解释原始资料中的大部份变异,期望能将许多相关性很高的变量转化成彼此互相独立的变量,从中选取较原始变量个数少且能解释大部份资料中变异的几个新变量(降低原始变量的维数),也就是所谓的主成分,而这几个主成分也就成为用来解释资料的综合性指标。