前言:想要写出一篇令人眼前一亮的文章吗?我们特意为您整理了5篇人口统计学变量分析范文,相信会为您的写作带来帮助,发现更多的写作思路和灵感。
【关键词】父亲;教养投入;幼儿
【中图分类号】G616 【文献标识码】A 【文章编号】1004-4604(2016)09-0045-5
在中国传统文化背景下,“男主外,女主内”通常是一般家庭的角色分工模式,因此,养育孩子更多地被看成是母亲的事,大多数父亲习惯做“甩手掌柜”。但随着社会的变迁,越来越多的女性走出了家门,走上了工作岗位,于是,要求父亲更多地参与到孩子的教养中来的呼声日渐大起来。父亲对孩子的成长具有独特的影响。〔1〕在某些行为特质上,父亲的影响甚至要大于母亲。〔2〕例如,父亲能够影响孩子的社会性发展、认知发展和学业成就,〔3〕对孩子性别意识的形成也具有重要影响。父亲参与的缺失,不仅可能会影响孩子性别意识的发展,还可能导致孩子交往能力的欠缺,甚至出现行为。〔4〕因此,对于父亲的教养投入展开研究十分必要。那么,父亲的教养投入现状如何?父亲教养投入的影响因素有哪些?
一、研究设计
(一)研究对象
本研究采用方便取样方法,从湖北省武汉市抽取了4所幼儿园,每所幼儿园各抽取小中大班3个班级为研究对象,共发放问卷300份,回收292份,有效问卷280份,有效问卷率为93.3%。
(二)研究方法
本研究对幼儿及其父亲的人口统计学信息进行了统计分析,包括幼儿的年龄、性别、是否为独生子女,幼儿父亲的年龄、受教育程度、月收入、每周工作时长、工作满意度等。
2.父亲教养投入问卷调查
本研究采用伍新春、刘畅等编制的《父亲教养投入问卷》进行问卷调查,〔5〕问卷涉及互动性、可及性和责任性3个维度。互动性是指父亲参与照顾孩子,包含生活照顾、学业支持、情感交流、规则引导和休闲活动5个子维度;可及性是指父亲和孩子未发生直接互动,但当孩子需要的时候,父亲能够做出反应,包含空间可及和心理可及2个子维度;责任性是指父亲为孩子长远发展所做的准备、积累、规划和支持等,包括榜样示范、父职成长、信息获得、教养支持和发展规划5个子维度。〔6〕问卷共56个题项,适用于3~18岁儿童和青少年的父亲。问卷采用0~4级评分,依次表示“从不”“偶尔”“有时”“经常”和“总是”。研制者报告,总问卷的Cronbach’s alpha系数为0.967,探索性因子分析KMO系数为0.943,表明问卷具有良好的统一性和内部一致性。互动性、可及性、责任性3个维度的Cronbach’s alpha系数都在0.867以上,12个子维度的Cronbach’s alpha系数也都在0.649以上。
二、研究结果与分析
(一)幼儿父亲教养投入的总体情况
幼儿父亲教养投入的总体得分为2.67分,各维度的得分均大于2分,其中,可及性得分最高,互动性得分最低。对互动性、可及性和责任性3个维度分别作两两T检验,结果显示,互动性
(二)幼儿人口统计学变量对父亲教养投入的影响
统计分析表明,幼儿的年龄和性别对父亲的教养投入均没有显著影响,独生子女和非独生子女父亲的教养投入具有明显差异(见表2)。
进一步检验幼儿性别、年龄和是否是独生子女三因素之间的交互效应,结果显示,年龄、性别和是否是独生子女的三重交互作用对父亲教养投入的总得分有边缘显著效应(F=2.218,p=0.053),在可及性(F=2.615,p=0.025)和责任性(F=2.561,p=0.028)两个维度上存在显著差异,互动性差异不显著。以可及性、责任性两个维度为因变量,对幼儿年龄、性别和是否是独生子女三因素的交互作用进行简单效应分析,结果见表3。
(三)父亲人口统计学变量对其教养投入的影响
统计分析表明,受教育程度、每周工作时长和工作满意度对幼儿父亲的教养投入有显著影响。
1.受教育程度
学历层次越高,父亲的教养投入得分越高。其中,本科学历和研究生及以上学历的父亲得分没有显著差异,但在互动性(F=2.324,p=0.057)上边缘差异显著。进一步分析表明,在学业支持(F=2.470,p=0.045)、休闲活动(F=2.671,p=0.033)和心理可及(F=2.551,p=0.040)上,不同学历层次父亲的教养投入存在显著差异,学历层次越高,教养投入越多。
关键词:商业银行;绩效考评;员工满意度
一、 问题的提出
一些文献对商业银行绩效考评指标的体系设计问题进行了讨论,但这些讨论的重点是如何对银行的经营绩效进行评价,可以对不同银行按绩效进行排名,而没有关注银行绩效评价的对象和主体即员工绩效。另外一些文献则以企业经营战略目标为考核依据,以平衡计分卡(BSC)为考核工具,讨论了以战略目标为导向、以员工绩效为考核对象的商业银行员工绩效考评指标体系的设计问题。这一类研究的基本思路大致相同:以BSC的基本框架为理论依据,明确银行的战略目标以后,将财务层面、客户层面、内部流程、学习与成长等四个一级指标进行分解,形成二级指标、三级指标和权重,实际考核时对照指标体系对部门和员工进行打分和计算,即可得出考核对象的业绩表现。但是,相关研究基本都属定性研究,并没有严格的计量检验的证据。
没有效率导向的企业经营绩效考核,就不会有效率导向的员工绩效考核。在商业银行竞争压力越来越大的情况下,基于效率(Efficient)和效果(Effects)的员工绩效考评已经成为各银行激励员工努力工作、提升银行竞争力的一种手段。尤其是在外资银行不断进入,新的银行经营模式和管理理念不断对传统的中资银行造成冲击的情况下,一些新近成立的股份制商业银行开始尝试以管理会计系统为蓝本的绩效考核体系,强调“价值创造”理念,固化“成本倒逼”机制,彻底实现商业银行员工绩效考核的市场化转型。管理会计系统是多维度的盈利核算系统,可以提供多维度的利润指标,用以支持绩效管理,因此,绩效管理是管理会计主要用途之一。借助于管理会计系统进行业绩评价,利用管理会计的利润指标体系构建“价值创造型”的绩效考核体系,能够促使考核由规模导向转为利润导向,促使企业每个单元都能够以价值创造为导向,实现企业利益最大化。但是,由于这一考核体系设计理念相对理性和刚性,而且指标众多内容庞杂,在一些试行的商业银行中引起不少争议。
二、 理论与模型
制度经济学(Institution Economics)与机制设计理论(Mechanism Design Theory)指出,“好的(Good)”制度与机制取决于两个最重要的因素:制度设计与制度执行。制度设计主要解决衡量标准和衡量内容等方面的问题,制度执行主要解决制度运行与监督保证方面的问题。由于个人目标函数差异较大,阿罗已经证实,在所有人都是理性选择的前提下,形成一个可以包容所有人偏好的社会目标函数是不可能的。但是,基于“一致计算”的原则,制度和规则必须得到大多数人的同意才会具有可执行性,制度设计的目的才有可能实现。在管理学的经典著作中,德鲁克在《管理实践》中提出的“目标管理”(Management By Objective,MBO)也指出,只有自上而下、自下而上多次讨论博弈,最后制订的组织目标才会成为激励手段而不仅仅是考核与约束。
绩效考核或绩效评价(Performance Evaluation)是对行为过程(Progress)和行为结果(Results)的考核与评定。显然,评估标准和评估执行是影响评估结果的两个最重要的影响因素。在现有的绩效考核实践中,几乎所有的组织单位都是自上而下的制订一套考评体系,或者邀请咨询机构设计一套考评体系来对员工进行绩效考核,很少能够按照“一致同意”的原则通过上下互动沟通而设定考核标准和考核执行机制。研究表明,一些组织高强度的绩效考核不仅没有发挥应有的激励作用,反而扭曲了员工的工作态度和工作行为。员工的工作满意度、工作投入度、组织承诺、组织公民行为变得越来越低,而消极怠工、蓄意破坏、不合作、忠诚度下降、离职等行为却越发普遍,绩效考核不再发挥应有的激励员工的正面作用,反而在某种程度上成为员工“反生产行为”的导火索。因此,员工在对绩效考核的认知与感受是至关重要的,员工对于绩效考核的公平感会直接影响员工行为(OCB)和组织绩效目标的实现。
员工的公平感是一种主观感受,而不同员工的主观感受是有差异的。对于绩效考评而言,员工首先考虑的应该是考核目的能不能接受、考核指标设置合不合理、考核内容合不合适、考核结果有没有及时反馈等等,公平感只是对考核结果与激励约束匹配差异的一种反应。显然,这种反应与个体情况紧密相关。对“反生产行为”可能产生影响的人口统计学变量包括年龄、性别、婚姻状况、受教育程度以及工作年限等。在中国样本中,收入和职位是另外两个最可能影响个体认知与行为的因素。在以往的实证研究中,人口统计变量一般都作为控制变量进入计量模型的,尽管这些变量与“反生产行为”关系的研究结论尚未统一,但是在回归模型中这些控制变量往往又是显著的。这说明,一套既能防止员工“反生产行为”产生又具有激励作用的绩效考核指标体系设计的关键,是能够在坚持战略目标导向的前提下,充分考虑员工个体情况的差异,在考核标准制订和考核执行两个方面都能做到让最多数的员工满意。尤其是在商业银行这样的特殊企业类型中,员工绩效考核更需要考虑员工的反应和行为。
三、 实证研究
1. 问卷设计与发放。在商业银行中引入管理会计系统作为员工绩效考核的指导思想和蓝本,固然能够扭转国有银行职工长期养成的地位优越的思想认识,但同时也让很多员工感觉压力太大和难以适应。管理会计系统本身比较专业,如果没有相应的财务知识可能很难理解。此外,一套完整的绩效考核体系应该包括考核指导思想、考核目的、考核准备、考核内容、考核指标、考核过程、考核时间、考核反馈和考核效果等几个方面,员工对绩效考核的满意度主要来自于对这些考核要素的评价和认知。依据上面提出的理论模型和商业银行绩效考核的要素与环节,本文设计了39项问题,请调研对象对考核的指导思想、考核目的、考核准备等问题进行评价,评价尺度为Likert五点量表。最后一题是效标测项,也是员工总体满意度测项。这样,问卷主体共有40道问题。其次是人口统计变量,包括性别、年龄、职位、收入等,共9题。其中,工龄包括两个方面的问题,一是个人全部工作时间,二是个人在本单位的工作时间。经验是指是否有其它银行工作经历,有记为1,无记为0。
问卷在广州某著名商业银行全行发放,发放时间为2013年2月~2013年4月,共发放400份问卷,回收有效问卷316份,有效率为79%。
2. 描述性统计。首先观察员工对绩效考核各要素的评价是否存在个体差异。如果所有员工对绩效考核的指导思想、考核目的、考核准备、考核指标等问题都具有同样的判断,那么绩效考核就不会在不同部门、不同级别的员工中造成不同的影响。
方差检验表明,从绩效考核各要素的角度看,考核是否经过充分准备在人口统计变量中的差异性最多,不同年龄、不同职位、不同学历、不同专业、不同收入和不同工作经验的人对银行绩效考核的准备工作评价都有显著不同;其次是对考核目的的评价,学历、专业、婚姻、收入和经验都是显著的影响因素;再次是对考核能否及时反馈和考核效果的评价,年龄、学历、收入和经验同样是显著的影响因素。而从人口统计学变量的角度看,对绩效考核各要素的评价差异最大的影响因素则是个人年收入、是否有其它银行工作经验、学历和年龄,尤其是收入变量和工作经验,不同收入和工作经验的人几乎对所有绩效考核要素的评价都存在差异性。
其次考察员工对绩效考核的总体满意度在人口统计变量中是否具有显著性差异。分析结果表明,几乎所有的人口统计学变量对绩效考核的总体满意度评价都有显著性差异,换句话说,几乎所有不同身份特征的员工对现有绩效考核工作都有不同的看法和意见。
3. 计量分析。本文认为,员工对绩效考核的认知与评价是影响员工考核满意度的主要因素,而在这一影响过程中,不同人口统计变量将对主效应产生重要影响。从方差检验的结果看,绩效考核各要素评价和绩效考核总体满意度在不同身份特征的员工之间存在显著的差异性。本部分还将利用逐步回归模型(Stepwise Regression)考察人口统计变量、考核评价对满意度的影响。统计软件为SPSS17.0。
结果表明,在控制变量对总体满意度的回归中,员工的职位、年龄、学历、收入、经验都是影响员工绩效考核总体满意度高低的因素。但是,职位、年龄、学历和收入三个变量的影响都是负面的,职位越高、年龄越大、学历越高、收入越高的员工满意度越低,仅有工作经验的影响是正的。而在绩效考核各要素对总体满意度的回归中,指导思想、考核准备、考核过程、考核反馈和考核效果等几个方面是影响员工总体满意度的主要因素。其中,考核过程越复杂,牵涉的方面越多,越容易引起员工的不满。把人口统计变量作为控制变量进入总回归模型后,控制变量仍然显著的是职位、收入和工作经验,但是工作经验的符号由正变成负,也就是说,有其它单位工作经验的人满意度越低。此外,在本单位工作时间长短也成为影响总体满意度高低的一个因素,在本单位工作时间越长的人,满意度越高。和单纯的控制变量回归结果相比,单位工作时间的影响作用也发生了反向变化,由负面影响(但不显著)变成正面影响。而与单纯的绩效考核要素对满意度的回归结果相比,考核效果评价的影响作用不显著,但是考核指标评价的影响作用加强,即考核指标设计得越复杂,越容易引起员工的不满。
四、 分析与讨论
员工绩效考核是一个系统,这一系统不仅包括了考核指标设计、考核标准制订、考核的具体执行等方面的内容,而且还应该包括考核指导思想、考核目的、考核准备、考核反馈机制等等。为了尽量少引起员工的“反生产行为”,考核的每一个环节都应该得到员工的理解和支持,如果员工不认同或不接受绩效考核的设计理念、具体内容和执行方式,那么绩效考核的激励作用就会消失殆尽,员工的抵触情绪和抵触行为就有可能不断发生。
本文的实证研究结果证实,绩效考核各要素评价在员工个体间存在着显著的差异,而且绩效考核的总体满意度在不同身份的员工之间也存在显著差异。这说明,在商业银行的绩效考核过程中,存在着员工“反生产行为”产生的可能,本文提出的理论模型是成立的。进一步的考察发现,职位、收入和工作经验是影响员工总体满意度的最重要的三个影响因素,而且全部都是负面影响。就职位因素而言,职位越高的人满意度越低,可能的原因是越高层的员工,手中掌握的权力越大,在成本概念没有得到加强之前,职位产生的权力租金(Power Rents)基本上由领导本人说了算;但是,管理会计系统强化了利润创造,对成本结构形成硬性约束,职位带给领导的各种收益将被降低。而且,绩效考核工作量大,指标计算复杂,考核频率快,持续时间长,给领导增加了工作负担。因此,领导层对强制性的绩效考核往往都有不满情绪。从收入的角度看,收入越高的人对绩效评价的总体满意度越低,可能的原因是这一指标和职位因素密切相关,银行职工的收入在领导层和普通员工之间拉得距离较大,高收入群体其实就是占据领导职位的人,收入越高,成本约束越强,对绩效考核就会越不满意。从工作经验来看,有无外单位工作经验对满意度的影响是负面的,有其它银行工作经验的越容易导致不满。这一点和单纯作为控制变量回归的结果正好相反,可能的原因是如果不与其它单位比较,本单位的工作经验对于复杂的绩效考核是有妥善应对功能的;但是与其它单位的情况一比较就会发现,这套管理会计系统可能会降低收入或增加工作量,不满情绪就会产生。这说明,如果单纯从方便管理的角度讲,一直在本单位工作的员工更容易接受绩效考核;这也同样说明,不同单位工作经验可能具有双刃剑的影响。
从绩效考核各要素情况来看,加入控制变量后仍然显著的有考核指导思想、考核准备、考核指标和考核反馈等几项指标。这一结果为“一致同意”或MBO管理提供了有力的证据。如果员工能够认可绩效考核的设计理念和指导思想,比如说绩效考核不是为了约束个人,而是为了提升银行竞争力,并从长远角度不断提升个人收益水平等,那么员工就容易对绩效考核表示满意。而考核之前的工作也非常重要,俗话说“磨刀不误砍柴工”是有道理的,既然成本导向型绩效考核本身就会对个人收益或个人行为造成重大影响,如果不在行动之前做好教育、宣传和鼓动工作,员工一方面可能因为难以理解考核内容和指标而产生抵触甚至对立情绪,令一方面也可能会因为被排除在参与之外不能表达意见而生怨恨。考核指标设计对员工满意度的影响是负面的,指标设计的越复杂,员工满意度越低。这一结果比较容易理解。但在实践中,很多单位的绩效考评体系都是极其复杂的,不是专业人士根本就没法全部搞懂,员工不信任感由此产生。最后一项对员工满意度产生显著影响的因素是考核的反馈机制,考核不能及时反馈,或者考核结果与考核承诺的激励不能相匹配的话,员工的不满情绪立刻就会产生。这一结果提醒实践者,“言必行,行必果”必须得到切实保证,形式主义的绩效考核更容易伤害员工的积极性。
五、 总结与建议
本文以广州农村商业银行为样本,考察了员工对复杂绩效考核系统的评价和态度。本文的研究证实了员工个体差异和对绩效考核各要要素的评价是影响员工绩效考核总体满意度的重要影响因素。和员工“反生产行为”的相关研究相比,本文的研究更为具体和深入,程序公平和结果公平应该贯彻到绩效考核的每一个环节,如果员工不能认可绩效考核的指导思想、考核指标、考核过程、考核反馈机制,绩效考核工作没有做好充分的准备工作,那么员工的“反生产行为”就有可能会发生。
本研究发现,个体特征对绩效考核满意度的影响往往都是负面的,职位、收入、工作经验甚至学历、年龄等因素都会让员工产生不满情绪。每个员工都是独一无二的,在某种意义上讲,他们都是既得利益者,绩效考核机制明确了个人的责任和义务,界定了权利的边界和内涵,这一考核过程极有可能会打破原有的利益格局,触动某些人心中的“奶酪”,继而会引起相应的情绪反应。因此,一套考核机制不仅需要尽可能地兼顾最大多数人的利益,接受最大多数人的意见,还需要在高层获得强有力的支持才有可能真正执行。目前,一些商业银行推行管理会计系统为蓝本的绩效考核体系,主要的动力就是来自银行的最高层。银行领导承担的压力最大,他们迫切需要体制、机制创新来提升银行竞争力。但是,银行毕竟不是普通的企业,完全市场化的考核机制是否适用,是否会引起员工的“反生产行为”,还需要在实践中不断总结,不断完善,不断创新。
参考文献:
1. 关新红.构建合理的商业银行绩效评价体系.中国财经大学学报,2003,(7):17-21.
2. 关新红.基于风险的银行绩效评价方法.中央财经大学学报,2004,(5):26-30.
3. 谢赤,钟赞.熵权法在银行经营绩效综合评价中的应用.中国软科学,2002,(9):108-110.
4. 周春喜.商业银行经营绩效综合评价研究.数量经济与技术经济研究,2003,(12):98-101.
5. 袁云峰,张波.商业银行经营绩效综合评价体系研究.国际金融研究,2004,(12):28-32.
6. 张中朝,华军峰,甘茂智.商业银行绩效考核体系构建——一个现实框架.中央财经大学学报,2006,(9):24-29.
7. 江小华.我国商业银行绩效考核机制现状及改革策略.上海金融,2008,(10):32-34.
8. 曹建平,姚舜,黄明喜.平衡计分卡在商业银行绩效考核中的运用.上海金融,2004,(12):51-54.
9. 赵国杰,赵红梅.基于平衡记分卡构建商业银行绩效评价体系.现代财经,2004,(5):3-6.
【关键词】彩票;收入弹性;春节效应
一、引言
自从1987年第一批福利彩票开始发行,继而1995年体育彩票也开始发行,彩票行业逐渐发展完善,成为政府筹措公益慈善资金的重要来源。2011年,我国彩票销售额就达到2215亿元,创下历史新高,共筹集彩票公益金634亿元,为我国的公益事业提供了强大的资金助力。彩票行业的另一个重要贡献在于提供了大量的就业岗位,特别为很多个体经营者带来了一个不错的就业选择。彩票营业税也成为服务业营业税较快增长主因。同时,对普通大众来说彩票也逐渐的进入了他们的消费生活,其中不乏一夜暴富的故事,也有为博头奖倾家荡产的反面例子。随着彩票影响力的不断增强,国内学界也更多的关注彩票相关的研究。哪些因素影响了彩票销售就是一个研究的热点。而在众多的影响因素中,收入无疑是最关注的焦点。原因是,在中国,彩票公益金的主要用途是政府的福利救济和中低收入群体的体育健身设施的建设,理想的模式是通过彩票将一部分中高收入人群的收入转移支付到中低收入人群中,来提高整个社会的福利水平。但是,如果购买彩票的绝大部分都是低收入者,绝大部分的买彩票者都是为了追求一夜暴富,而彩票并没有想其他娱乐品,例如电影,给购买者休闲的效用,那可能上述理想的情况不但不能出现,有可能还会更糟。如果真的那样彩票管理者就应该检查彩票发行机制来改善情形了。
本文利用中国2007-2010年来省级彩票销售量的面板数据,从总量分析上来研究人均收入对人均彩票销售量的弹性,同时,指出总量分析在这种关系识别上存在的问题,通过一个特殊外生事件(春节效应)的研究来对两者的关系进行修正。
二、文献综述
在研究收入与彩票销量关系的文献中,按数据类型的不同,主要分为微观分析和总量分析。前者是基于对彩票潜在购买者调查的微观数据,通过一些例如Tobit一类的微观计量模型,来研究包括收入、性别、年龄、种族、宗教等个体变量对彩票购买意愿以及购买量的影响。后者是基于地区,国家的宏观总量统计数据,例如人均收入、人均GDP、教育水平、贫困程度等变量,来研究对该国家或者地区总体彩票销售量的影响。
微观分析代表文献中,Farrell和Walker(1999)利用基于英国微观个体的面板数据,通过Tobit模型研究了收入、年龄等一些人口统计学特征对彩票购买者购买概率和购买量的影响,他们主要关注了价格弹性以及“二次反转”(double rollover)对购买的影响。他们发现高的价格弹性和低的收入弹性。Rubenstein和Scafidi(2002)等通过美国Georgia洲1998年的微观家庭抽样调查数据对该州教育彩票的购买偏好和最终用途进行了研究,发现低收入和非白人家庭的购买量更高,但是高收入家庭在教育彩票的收益上更大。同类的研究还有Grotea和Mathesonb(2007)等。
总量分析的代表性文献中,Mikesell(1994)研究了1983年倒1991年美国33个州的人均季度彩票销售量与各州各种经济指标间的关系,主要发现人均收入对人均彩票销售量的平均收入弹性达到了3.9,失业率相对与人均彩票销售量的弹性要低得多,只有0.054。但彩票的销售量对失业率的变化是敏感的,失业率增加1%彩票销售量增加0.17%。Mikesell同时指出研究结果也证实了在经济的衰退期,更多的人会感受更沉重的生活压力,增加彩票的购买的假设。Garrett(2001)研究了1997年全球82个国家和地区的人均彩票销售量和该国家地区的主要经济指标间的关系,发现平均来看全球人均收入对人均彩票销售量的收入弹性为1.347,比较各个大洲的情况,非洲为0.71,亚洲为1.31,北美为1.182,欧洲为1.681,南美最高为2.065。Garrett还研究了彩票销售量占国家GDP的比重和各个国家或地区收入水平之间的关系,发现中低收入国家或地区彩票销售量占国家GDP的比重较高,而低收入和高收入国家的比重较低,近似存在一种倒U型的模式。Coughlin和Garrett(2009)使用2005年美国七个州彩票数据,通过把收入分为名义收入、财富和转移支付三类,分别考虑了它们对彩票收入的弹性,发现转移支付的弹性最强,也暗示得到政府转移支付更多的低收入人群购买了更多的彩票。
分析文献我们发现,丰富的微观数据能够对潜在彩票购买者的购买意愿和购买数量进行精确的计量分析,而且大多数的结果和微观经济学以及心理学的理论相吻合,即对乐透型的彩票,低收入人群,高生活压力的人群是它的主要购买人群,彩票随收入增加的边际消费倾向是递减的,甚至从理论和现实中都存在低收入者购买彩票的绝对数量也会高于高收入者,比尔盖茨很难为了中个五百万而购买一张彩票。但是,对中国国内的研究来说,由于我们还没有完善的微观数据收集系统,数据的缺失使这样的研究很难严谨的展开。所以,本文也采用的是总量分析的方法。但特别需要注意的是,总量分析却存在一个严重的问题。仅仅估计到一个正的收入弹性,是无法说明单个个体会随着收入的增加而增加彩票的消费量。这是因为,针对人均收入对人均彩票销售量的弹性,总量分析得到的是一个地区一个个体平均意义下收入变化对彩票消费的影响,但是如果该地区本身人均收入的差异很大,高的人均收入的地区伴随着更多的低收入群体,总量分析的结果就可能有问题。极端的来讲,一个高的弹性可能是大量的低收入者巨额的购买和少量的高收入者的零购买形成的,这样平均意义下的弹性就没有多少的实际意义。本文后面的工作就是不仅仅估计出人均收入对人均彩票销售的弹性,还有通过总量数据来分析到底是流动人口是否是彩票的主要消费者。
三、研究设计与数据来源
首先,为了得到中国各个省、直辖市彩票的收入弹性,本文在Garrett(2001)的模型上构建了彩票人均销量与人均收入的计量模型。相对与Garrett(2001)的横截面模型,本文通过中国2007年至2010年,中国大陆地区31个省、直辖市年度的彩票销售数据和相应的收入数据建立了面板模型。
…………(1)
(1)式中,表示指定省市i年份t的人均彩票销售量,表示i省市年份t的人均GDP,表示i省市的截距,表示i省市的斜率,表示误差项。
本文选择的面板模型是参数满足时间一致性的固定效应模型,以为本文使用的数据是横截面较长,时间维度较短的面板数据,从估计的角度参数容易满足时间一致性;同时,本文使用的是全国所有省、直辖市的数据,本身就是总体,并且变量都是汇总后的总量数据,使用固定效应模型建模更为自然。
在变量选择上,本文用人均GDP来代表收入水平,是因为国家统计局给出的收入指标,分为了农村人口的年度总收入和城镇人口的年度可支配收入,并没有一个统一的个人年度可支配收入,考虑到不同省市间城乡差异较大,参考先前关于彩票收入弹性的研究(如Garrett(2001)),本文选择了人均GDP来衡量各省市的收入水平。实际上,在研究中我们也尝试选择了上述两个变量来进行分析,估计结果并不改变本文的主要结论。
第二步,为了分析各个地区实际购买彩票人群的特征是否符合心理学及其相关研究的特征,本文关注了两个问题,一个是一类特殊的人群,流动人口。众所周知,我国是一个流动人口的大国,特别是改革开放后,中西部富余劳动力大量的向东部移动,加之我国特有的户籍管理制度,东部经济发达地区常年积聚了大量的流动人口。这一部分社会群体是比较符合前面所谈到的低收入,高生活压力的特征,也就是说,他们按照理论分析应该会有更高的彩票购买倾向。存在这样的可能,在彩票收入弹性更高的地区,很可能是因为有更多的流动人口,他们购买了更多的彩票,才产生了虚假的更高的收入弹性。或者说,高的弹性的一个重要原因之一是以为,在高收入的经济发达地区聚集了更多的彩票潜在消费者――流动人口。但在,彩票销售的总量统计数据中,却并没有购买者的统计信息,也就无法证明哪一部分彩票是这些流动人员购买的。为了克服这个困难,本文又从时间维度上考虑,在一个特定的时间,大量的流动人口会离开自己的暂居地――春节,具体的说主要是春节到元宵这一个时间段。一年一度的春运高峰,正是这个现象的最好体现。如果前面的逻辑是正确的,那么在流动人口集中度更大的地区,在除夕到元宵所在月份的人均彩票销量会下降得更多,为了证实这个假设,本文建立了第二个模型:
…………(2)
(2)式中,表示各省市春节春节到元宵所在月份与上一月份的人均彩票销售量的差,表示各省市流动人口占总人口的比例。
各省市年度的彩票销售数据来源于中国财政部网站,其余数据都来源于中国国家统计局网站。中国财政部网站上提供了2007年8月至今的省市各月度的以及当年累计的彩票销售数据,国家统计局网站提供的是各省市年度人口、收入、GDP数据。因为,全国第六次人口普查的详细数据还没有公布,各省市流动人口占总人口的比例是通过2005年全国1%人口抽查数据中统计的“全国按现住地分的户口登记地在外省的人口”数据计算得到。人均彩票销售量、人均GDP。
四、实证分析
首先,需要确定(1)式的具体形式。是相同截距,相同斜率;相同斜率,不同截距;还是不同斜率,不同截距的模型。本文先进行了模型选择的F检验,F(60,62)=1.528,F(30,62)=1.634,所以,最后确定的(1)式的具体形式为,固定效应变截距模型。考虑到省级面板分析时,一般认为存在异方差,所以在估计参数时我们选择了截面加权的广义最小二乘。
(1)式的最后估计结果为:
R2=0.96,DW=2.15,F=75.57,是每个省市截距对平均截距的偏离。整体的回归效果比较理想。同时,对模型固定效应进行似然比检验,LR=17.14,P
我们得到的彩票的收入弹性为1.06,同Garrett(2001)研究中得到的亚洲1.31的结果还是比较接近,考虑到Garrett提出的倒U型的收入弹性模式,以及其他大洲的数据,我们预计短期内,收入弹性还有增加的可能,这对整个彩票市场都是一个利好的消息。但是,一个大于1的收入弹性似乎指出,随着收入的不断增加,购买彩票的量也会增加得更快,富人比穷人有更强的购买彩票的意愿,这显然同我们平常的逻辑和心理学的相关研究相悖。正如我们前面分析的,一个平均意义下通过总量分析得到的收入弹性可能会掩盖社会不同阶层对彩票的不同需求。为了分析彩票购买者的人群结构特点,接下来,我们又对(2)式进行了估计。估计时,我们选择了White异方差修正。
(2)式的最后估计结果为:
R2=0.38,DW=1.54,F=17.69。整个模型的R2偏低,原因很大在于流动人口比例数据偏度较大达到了2.07,有不少省市的流动人口占该省人口比例都很小,总体样本的容量只有31个,一个较低的R2也比较自然。同时考虑到,在95%的置信度下DW值和总体线性的检验都通过,(2)式的估计也是可以接受的。
最后得到流动人口比例的系数为3.69,说明在春节期间,的确有大量的彩票销量的下降是由于流动人口的暂时离开造成的。也就是说,在平时流动人口是彩票的一个非常重要的消费群体。
结合上述实证结果,我们可以看到经济发达地区,人均GDP,人均收入都较高,同时也有较高的人均彩票消费量,但是,这种平均意义下的高的人均彩票消费量掩盖的是不同人群结构下的彩票消费,改革开放后,我国经济发达地区吸引了大量的外来人员,积累了大量的流动人口,这些人群往往是相对收入较低,生活压力较大的群体,他们实际上是这些经济发达地区彩票消费的主体之一,也暗示真正的高收入群体的人均彩票购买量比总量数据分析得到的平均值要低。进一步,如果要获得准确的彩票收入弹性或者是收入消费曲线,基于微观个体的数据就是必不可少的。
变量选择与数据来源
农村居民患病就医的支出费用是一个连续的经济变量,可以用以下对数线性模型进行估计:(略)其中,Y表示农村居民患病就医的支出费用;Xi表示影响农村居民患病就医支出费用的因素;ai表示各个影响因素的影响程度;着表示随机误差项,即未被考虑因素的影响,服从标准正态分布。参考美国纽约州立大学Michael.Grossman教授创立的Grossman健康资本需求理论,最终确立个人影响因素和地区影响因素两大类影响因素,具体情况如表1所示。本文使用2009年CHNS数据进行分析研究。CHNS是北卡罗来纳大学人口研究中心和中国疾病控制与预防中心合作开展的“中国健康与营养调查”项目(ChinaHealthandNutritionSurvey,简称CHNS)。这个项目是一个包括营养学、公共卫生、经济学、社会学、中国研究和人口统计学方面的专家团队,采用多阶段随机分层抽样方法,在中国的黑龙江、辽宁、山东、河南、江苏、湖南、湖北、广西、贵州,共计9个省份,开展的针对城乡居民的人口、生产、生活、收入、消费、营养健康以及医疗保健等特征的统计调查,是目前中国居民医疗微观调查中比较权威的数据。
影响因素定量分析
1.空模型检验
CHNS数据是在中国的黑龙江、辽宁、山东、河南、江苏、湖南、湖北、广西、贵州,共计9个省份开展的调查数据,可能存在层次结构特征,因此对其进行空模型检验,结果如表2所示。对数据进行二分类离散数据空模型拟合,得到截距项U0的P<0.01,具有显著统计学意义,数据确实存在层次结构特征,适用于多层模型进行分析。因此,将其分为两层,地区层次(高水平)和个人层次(低水平)进行分层模型分析。
2.多层线性回归分析
由于农村居民患病就医的支出费用是一个连续的经济变量,因此采用多层线性回归模型进行分析。通过模型拟合和变量筛选,最终结果如表3所示。可以看到,在个人层次影响因素中,低年龄、高年龄、小学、家庭人均收入和保险对农村居民医疗支出没有显著影响,男性、高中、未工作、非农工作和患病严重对农村居民医疗支出有显著正向影响,单身、患病不严重和家庭规模对农村居民医疗支出有显著负向影响。在地区层次影响因素中,农村每千人医生卫生员数对农村居民医疗支出没有显著影响,农村医疗价格水平对农村居民医疗支出有显著正向影响,农村人均纯收入对农村居民医疗支出有显著负向影响。
结论
根据上述定量分析,可以得到以下结论:
1.个人影响因素
年龄、家庭人均收入和保险对农村居民医疗支出没有显著影响。性别对农村居民医疗支出有显著正向影响。在农耕活动中,男性劳动产出比女性多,男性比女性更适宜进行体力生产劳作。长此以往,在农耕为主的中国农村家庭中逐渐形成了重男轻女的习俗。男性被视为家庭的支柱,往往具有较高的地位和绝对话语权,这种情况也映射到了农村居民医疗支出上。在农村居民医疗支出中,男性人群的支出水平显著高于女性人群,男性在医疗服务需求方面处于强势地位,而女性则处于相对弱势地位。
小学教育程度对农村居民医疗支出没有显著影响,而高中以上教育程度对农村居民医疗支出有显著正向影响。受教育程度更高的民众自我保健养生意识更强,在平时的生活中注重身体健康的保持并善于自我治疗保健。当受教育程度更高的民众确实患病较重或无法自行医治时,才会选择就医治疗,且医疗支出水平随病情严重情况也会较高。
工作和非农工作民众对农村居民医疗的支出水平高于从事农业工作的民众,这是由于3方面原因导致的。一是未工作的群众主要是处于抚育期的妇女和在读学生,他们得到家庭特别关爱,占有较多家庭医疗资源;二是从事农业工作的民众患病成本高,一旦生病将会承受疾病带来的痛苦,损失劳动时间减少劳动所得,更会为恢复健康付出医疗服务费用,因此从事农业工作的民众较其他家庭成员更为注重自己的身体健康;三是农业工作是一种体力劳动,在一定的劳作程度内能够起到锻炼身体增进体质的作用,因此从事农业工作的人群身体素质比较好、健康水平比较高。
患病严重程度与医疗支出水平关系紧密,且关系复杂。从定量分析结果可以看出,患病严重的农村居民医疗支出对数比患病一般严重的农村居民大1.45,而患病不严重的农村居民医疗支出对数比患病一般严重的农村居民小0.76,患病严重与医疗支出水平呈正相关关系,患病不严重与医疗支出水平呈负相关关系。也就是说,当农村居民患有常见疾病,如感冒、发烧等,能自行治疗的就尽量自行治疗,尽量避免就医治疗。而当农村居民患病较重时,无法自行治疗,才会就医治疗。农村居民对于就医治疗的抵触情绪值得政府深刻研究。
单身和家庭人口规模都对医疗支出水平有负向影响。结束单身也就意味着家庭成员数量增加,从定量分析结果看,家庭人口规模每增加一人,其相应的医疗支出对数就会减少0.09。家庭成员越多、规模越大,家庭成员之间的相互关怀、相互照顾就会更多,这有利于身体健康水平的保持,在很大程度上具有医疗服务的作用。#p#分页标题#e#
2.地区影响因素
农村每千人医生卫生员数对医疗支出水平没有显著影响。农村医疗价格水平对医疗支出水平有正向影响。农村医疗价格水平的影响可以分成直接影响和间接影响两个方面。一方面,农村医疗价格水平的提高会直接提高居民的医疗支出水平,看同样的病,用同样的药,却要比以前付出更多的费用,直接影响了农村居民患病就医的支出水平;另一方面,农村医疗价格水平的提高将会占据农村居民可支配收入中更大的份额,农村居民不可能在物质生活、精神享受方面追加投资,甚至还会减少投资,这就造成了患病就医的抵触情绪,即使患病也尽量不去医院就诊,延误治疗加重病情,从而间接的增加了医疗支出费用。
关键词:登革热;风险因子;随机森林;时空扩散;数据挖掘
中图分类号:R512.8 文献标识码:A 文章编号:0439-8114(2017)07-1250-07
DOI:10.14088/ki.issn0439-8114.2017.07.013
Rating System Development of Spatio-temporal Diffusion Risk Factors on Dengue Fever Based on Random Forests
CHEN Ye-bin1,LI Wei-hong1,HUANG Yu-xing1,LIANG Xue-mei2
(1.School of Geographical Sciences, South China Normal University, Guangzhou 510631,China;
2.School of Geographical Sciences, Xinjiang University, Urumqi 830046,China)
Abstract: Previous researches on dengue fever(DF) mostly adopted the classical quantitative statistical model,but it is hard to consider nonlinear presence of risk factors and to explain their complex interaction relationship. To solve these problems,25 potential risk factors of DF were chosen and screened preliminarily by Pearson correlation method,and potential risk factors that lead to occurrence and diffusion of DF were found out by random forest(RF),and their quantitative evaluation system was also determined. The results showed that data mining ability of RF was better than classical linear model. The risk factors of DF were divided into 4 grades according to its risk to DF from big to small, the first grade included population density,residential distribution,left neighborhood and right neighborhood; the second grade included lower neighborhood and higher neighborhood;the third grade included road,left lower neighborhood, right higher neighborhood, right lower neighborhood,left higher neighborhood,rainfall,O3,PM2.5,PM10,CO,NO2 and pond; the fourth grade included temperature, agricultural land and woodland. In conclusion,RF model could effectively explore and quantify the impacts of various risk factors of DF,and explain the relationship among the various risk factors.
Key words: dengue fever; risk factors; random forest; spatio-temporal diffusion; data mining
登革幔Dengue fever,DF)是一种由登革1、2、3和4型病毒引起的危害性极大的急性蚊媒传染病,主要通过伊蚊进行传播,广泛流行于全球热带和亚热带的100多个国家和地区[1-4]。近年来,登革热传播速度及破坏力呈现明显上升趋势。据统计,登革热在全球范围内年发病数量已高达千万例,年均死亡人数超过2万人。
登革热的传播主要受社会人文、周边邻域、气象、环境以及用地类型分布等风险因子的影响[5-15]。研究登革热疫情的发生、扩散的风险因素是控制疫情的有效方法,也是目前登革热疫情控制研究的重点和热点[5]。近年来已有不少学者对登革热风险因子进行分析与挖掘,探究影响登革热发生、扩散的影响因素。国外方面,Méndez-Lázaro等[10]、Cheong等[11]、Sheela等[12]采用逻辑回归方法分析湿地类型、气候因子与登革热的风险关系;Hsueh等[13]利用地理加权回归模型识别人口密度、交通网络、水体对登革热的风险影响;?str?im等[14]利用半参数广义加权模型和逻辑连接函数对登革热潜在风险因子进行了研究,确定经济发达地区具备高致灾风险性;国内方面,王成岗[9]利用零膨胀Poisson回归模型挖掘登革热风险因子,发现温度、降雨因素对登革热存在重要影响;李森等[16]通过广义线性模型探究登革热风险因子,发现以湿地为主的草场是登革热病例存在的重要因子;易彬樘等[17]通过调查分析方法研究静态水体对登革热的风险影响。
现有研究在风险因子的探究方面尚未见将社会人文、周边邻域、气象、环境、用地类型等因素进行综合考虑,探究登革热与各风险因子之间的依存关系,并对诸多风险因子进行风险等级判别;在模型选择上主要采用传统的统计学模型,模型变量过度依赖依存因子的定量精度,无法顾及一些非线性的依存因子以及解释变量之间所具有的复杂相互作用关系。随机森林(Random forests,RF)是一种基于统计学习理论的组合分类智能算法[18],它采用Bootstrap重抽样方法进行样本选取,构建分类树,进而对所有分类树的预测结果进行组合投票得出最终结果。这种方法能够克服变量之间所存在的多重共线性,确定计算变量的非线性作用。RF具备指标重要性评估方式,能够通过特征重要性度量,实现重要特征选取,最终确定各风险指标对登革热的风险贡献度。正确识别登革热风险因子,确定风险因子等级排名体系,有助于公众及政府机关全面认识登革热流行的风险因素,有利于合理配置防控资源,提高登革热防控措施的及时性与有效性。
本研究以广州市中心区为例,主要采用随机森林算法剖析社会人文因素、邻域因素、气象因素、环境因素以及用地类型分布等潜在风险因子对登革热的影响,进行影响重要性对比分析,制定风险因子等级排名体系。
1 数据与方法
1.1 研究区域
研究区位于23°1′52″-23°26′6″ N,113°8′42″-113°35′50″ E,包含越秀、荔湾、海珠、天河、白云、黄埔、萝岗共7个区县(以下简称主城区,图1),属亚热带季风气候,年平均日照时间1 370~1 490 h,年平均温度20~22 ℃,年降雨时间150 d左右,年平均降雨量在1 800 mm以上。研究区总面积1 471.55 km2,包含116个街道,总人口数量超过800万人。2014年,广东省暴发了感染登革热病例的疫情,此次疫情广州市受灾最为严重。截至2014年11月,广州市累计报告登革热病例达36 934例,其中研究区内累计报告病例31 981例,占全广州市的86.6%。
1.2 数据
1.2.1 登革热数据 数据采用广东省疾病预防控制中心提供的2014年广州市主城区登革热感染者数据,共计31 981例,时间1-11月。基于格网单元的发病率图具备信息表达充分的特点,因此本研究采用格网单元对登革热病例数据进行空间化处理,将登革热病例数据分配到1 km×1 km的格网单元上,生成登革热疫情分布情况(图2)。
1.2.2 气象数据 获取分布于主城区的20个雨量监测站的降雨监测数据(数据来源于广东省水利厅),站点的空间位置如表1所示;采用反距离加权法(IDW)将站点数据插值为连续的雨量分布数据。
1.2.3 环境数据 获取分布于主城区20个环境监测站的2014年环境监测数据(数据来源于广州市环保局),时间1-12月,时间步长为1个月,每个站点检测的污染物包括SO2、NO2、PM10、PM2.5、CO、O3共6类,采用IDW插值法对环境监测数据进行插值。研究区环境监测数据插值结果如图3所示。
1.2.4 社会人文数据 研究区包含116个街道,总人口数为8 101 691人,人口统计数据如表2所示(数据来源于广州市2014年统计年鉴)。为了避免传统人口数据按区域采样的不足,提高分析结果的准确性,采用面积分配法,将街道人口数据按居民住宅总面积分配到建筑物上,保证人都在居民区上,如式(1)所示。
Ri=Mi×Li×■ (1)
式中,i为街道建筑物编号,Ri为第i栋建筑的人口数,Mi为第i栋建筑基底面积,Li为第i栋建筑楼层数,R为街道总人口数,n为街道范围内建筑数量。
1.2.5 用地类型数据 2014年Spot 2.5 m卫星遥感影像图,研究区内2014年基础地图矢量稻荨0赐恋乩用类型将用地分为8类,分别为林地、农用地、草地、公共绿地、河流、池塘、居民地和道路,具体分类见图4。
1.3 研究方法
1.3.1 空间自相关分析 登革热的传播模式为人-蚊-人[19],登革病毒以蚊媒为载体,将病毒传播到易感者体内。当传播现象发生时,感染者与易感者的活动范围存在空间重合。这种传播特征导致登革热病例存在空间自相关特征,需要对其进行定量分析。
空间自相关程度以全局Moran’s I(Global Moran Index)表示,公式为:
I=■ (2)
式中,n为样本量,即空间位置的个数;Xi、Xj表示空间位置i和j的观察值,X 表示观察值的均值,Wij表示空间权重矩阵。对于Moran’s I,可以用标准化统计量Z检验n个区域之间的空间自相关关系,公式为:
Z(I)=■ (3)
式中,E(I)表示Moran’s I值的期望值;Var(I)表示Moran’s I值的方差。一般当|Z|>1.96,拒绝零假设,即在95%的概率下,存在着空间自相关。
1.3.2 随机森林 随机森林是一种基于统计学习理论的组合分类智能算法,其基本思想是把多个具备互补作用的弱分类器集合起来组成一个强分类器。通过降低单个分类器错误的影响,从而提高模型分类准确率和稳定性。
随机森林是具备非线性特点的建模工具,具备高预测准确率,分类结果准确,稳定性强,不易过拟合,对异常值和噪声具有优容忍度等特点,对解决多变量预测及分类问题具有很好的效果[20]。在模型构建过程中,RF可确定变量重要性特征,决定特征选择变量。
1)原理及生成步骤。RF是由树型分类器集合{h(X,?兹k),k=1,…,n}组合而成的分类器,其中参数?兹k为独立同分布的随机向量。在分析过程中,每棵树对输入向量X所属的最受欢迎类进行投票,确定模型的最优分类结果。
RF生成步骤如图5所示。从总训练样本集中通过Bootstrap抽样随机抽取k个子训练样本集,建立决策分类子树模型;随机从分类树每个节点的n个指标中选取m个,按照最优分割指标进行分割;重复上一步遍历K棵分类子树,确定多个分类结果;投票表决决定最终分类结果。
2)风险指标重要性计算。RF采用Bagging算法集成训练集,假设训练样本足够大时,约有36.8%的样本不会出现在Bootstrap采样子集中,这部分数据称为OOB(Out-Of-Bag)数据。OOB数据可对决策子树模型进行评估,确定决策子树的错误分类率,即OOB误差。RF模型中的OOB误差具有无偏性特征,计算比交叉验证法更为高效。
风险指标的重要性计算方法主要有以下两种:
①计算每棵树的原始OOB误差(EOOB1)以及对风险因子i加入噪声后的OOB误差(EOOB2),再将两者的差对所有决策子树做平均,采用标准差归一化,得出风险指标i的重要性。在RF中采用IncMSE进行量度,公式为:
IncMSE=■■(EOOB2-EOOB1)/EOOB1 (4)
②通过分析森林中所有节点的风险指标i在节点分割时的基尼指数减少值D的总和后对所有树取平均,确定风险指标i的重要程度,在RF中采用IncNodePurity进行量度,公式为:
IncNodePurityk=■×100% (5)
式中,m、n、t分别是总指标个数、分类树棵数和单棵树的节点数,Dkij是第k个指标在第i棵树的第j个节点的Gini指数减小值,IncNodePurityk为指标在所有指标中的重要程度。
本研究选取第二种方法作为登革热风险因子的重要性评价的评判标准。
决策子树与预选变量数量的不同会影响随机森林的强度及相关性,影响结果精度。因此在风险因子筛选时,需要对比不同决策子树及预选变量数下的测试结果,从而确定最优决策子树及预选变量数目。图6分别显示了在不同预选变量及决策子树个数情况下的误差情况,最终选取预选变量数5和决策子树数量600作为随机森林的2个参数。
2 结果与分析
2.1 空间自相关分析
一般认为当P小于0.05,|Z|值大于1.96时,则拒绝零假设,表示在95%的概率水平下,存在空间自相关特征。结果表明,登革热具有强空间相关性,其全局Moran’s I值为0.649 2,P为0.000(小于0.01),Z为51.994 2。因此在进行风险因子分析时,需充分考虑邻域因子之间的相互作用性,将邻居格网的登革热病例纳入分析的范畴。
2.2 空间相关性分析
登革热的传播与扩散在空间上受到多种因素的综合影响,如用地类别因素、环境因素、气象因素、人口密度、邻域因素等。采用空间相关性分析,可初步得出登革热传播扩散的风险因子。
从表3可以看出,人口因素与登革热存在强烈的正相关关系,相关系数为0.765;其次是道路、居民地、邻域因子(共8个),温度、降雨、NO2、PM10、PM2.5与登革热有较强的正相关性,农用地、林地、CO、O3与登革热具有负相关性,而草地、公共绿地、河流、SO2与登革热的相关关系不明显。
2.3 随机森林
结果显示,当预选变量数为5,决策子树数量为600时,RF模型对登革热分析结果的均方根误差(RMSE)仅为0.055 678(数据已做标准化),风险因子对登革热具备72.25%的解释能力。相较于传统的前向逐步回归模型(解释能力为66.20%,RMSE为0.061 255),RF模型具有更强的解释能力,对于登革热发生与扩散的解释效果更为优秀。
RF模型分析得出各个风险指标的重要性程度,以重要性程度1%、5%、10%为节点对指标等级进行划分,共得出4个风险因子等级。从表4可以看出,人口、居民地分布、右邻域、左邻域是影响登革热传播的第一级别风险因素;下邻域、上邻域是影响登革热传播的第二级别风险因素;道路、右上邻域、左下邻域、右下邻域、左上邻域、降雨、O3、PM10、PM2.5、CO、池塘、NO2榈谌级别风险因素;温度、农用地、林地为第四级别风险因素。第一与第二风险等级的总贡献率达71.49%。其中人口因素贡献程度最大,重要程度达19.08%,居民地分布次之,重要程度为11.41%。
3 讨论
本研究基于前人的研究成果,综合考虑了社会人文因素、周边邻域因素,气象因素、环境因素、以及用地类型等共25个潜在风险因子。将随机森林模型引入登革热风险因子评价中,构建登革热风险因子等级排名体系。
3.1 随机森林与风险因子评估
研究表明,随机森林具备登革热指标重要性分析功能,能够挖掘出登革热风险因子,确定风险因子等级排名体系。从模型效果上看,随机森林比传统的线性回归模型的数据挖掘能力更强,结果更为准确。
3.2 社会人文因子对登革热的影响
人口因素是登革热发生与扩散过程中最为重要的风险因子之一,重要性占所有因子比重的19.08%,明显高于其他因子,这与?str?im等[14]强调的登革热主要风险因子为社会经济因子的结论相一致。经济发达地区,人口密度高,登革热易感人群越多,病毒的携带者与传播者也容易增多,导致登革热发病率迅速升高。因此在登革热防控过程中应该重点监控人口密度高、社会活动频繁、经济发达的地区。
3.3 周边邻域因子与盛行风向对登革热的影响
地理学第一定律表明,地理空间对象间普遍存在自相似性特征,距离越近的物体,相似程度越高。本研究将格网周边8个邻域作为风险因子,共同探究周边区域对登革热传播扩散的影响。研究结果表明,邻域因子是登革热发生与传播的另一个重要风险因子,其中与区域有直接边界接触的格网(上、下、左、右4个邻域)对登革热的影响程度最高,重要程度分别为9.37%、9.50%、10.86%、11.27%,其次是周边4个角点的格网(左上、左下、右上、右下4个格网),重要程度分别为2.44%、3.33%、3.33%、2.85%。这表明登革热的流行与暴发存在着区域效应,登革热疫情会受到周边区域的影响,所以在加强对登革热的防控时,应该随时监控周边区域登革热的传播扩散态势。
另一方面,格网的周边邻域对区域的影响不一,对区域登革热有显著影响的邻域为右邻域、左邻域、下邻域、上邻域、左下邻域、右上邻域共6个邻域,而左上邻域及右下邻域对区域的影响则相对较弱,该现象与广州的夏季盛行风向(东南风)相吻合,在盛行风向上的邻域对区域的影响程度显著弱于其他邻域。此现象表明,风向及风力大小对登革热疫情的传播扩散存在着不可忽视的影响。
3.4 用地因子对登革热的影响
登革热的流行与居民地、交通道路分布存在显著的正相关性,池塘的分布对登革热产生具有一定作用,林地与农用地的分布对登革热的影响不明显。这与Hsueh等[13]的研究结论一致,居民地、交通、水体对登革热的发生及扩散具有重要驱动作用。进一步证明登革热的防控应该重点围绕经济发达、人口密度高、交通便捷地区。另一方面池塘作为静止水源地,容易受到人为污染,为媒介蚊虫提供理想的孳生环境,因此在登革热防控过程中,应该注意池塘等静止水体的清洁卫生,防止蚊虫孳生。
3.5 环境因子对登革热的影响
环境因子方面,O3与CO对登革热存在抑制作用,NO2、PM10、PM2.5对登革热存在激励作用,总体而言气候因子对登革热的影响大小排序为O3>PM2.5=PM10>CO>NO2。登革热病毒主要由伊蚊作为媒介进行传播,而O3、CO浓度的升高对伊蚊的繁殖具有一定的抑制作用;另一方面NO2、PM10、PM2.5等污染物的升高,表明城市的环境卫生条件恶化,容易促使流行区发病率的增加。
3.6 气象因子对登革热的影响
气象因子方面,降水因素对登革热的影响高于环境因子。在夏秋季节降水量多时,也是登革热高发期。因此在降水量高的夏秋两季,应对登革热进行重点防护。另一方面,由于囟扔虢涤甑绕象因子对蚊虫孳生的影响存在滞后性,因此本研究得出温度因子对登革热的传播仅具有较弱的影响效力。
3.7 登革热风险因子等级排名体系
登革热的风险因子等级排名如下:第一等级(人口>居民地>右邻域>左邻域);第二等级(下邻域>上邻域);第三等级(道路>右上邻域=左下邻域>右下邻域>左上邻域>降雨>O3>PM10=PM2.5>CO>池塘=NO2);第四等级(温度>农用地>林地)。
登革热的发生与扩散主要受到人口分布及周围邻域的影响,这是登革热产生及流行的重要风险驱动因子。交通因素作为城市化水平的基本指标之一,在促进所在区域经济发展的同时,大大加快了人与人之间的活动交流,容易导致登革热在人口密度高的地区迅速扩散蔓延。环境因子在登革热产生与传播过程中起到了较为重要的作用,O3、CO对登革热存在显著的抑制作用,而NO2、PM10、PM2.5对登革热的扩散具有明显的激励作用。气象因子对登革热的扩散存在一定的影响,其中降雨量的多少对登革热的影响较为明显,就小区域范围而言,降雨量对登革热的激励作用显著高于温度。在用地类型因素中,池塘的分布与登革热的产生存在弱相关性,激励作用略弱,而农用地、林地等的分布则对登革热的影响不明显。
登革热作为一种通过“人-蚊-人”进行传播的传染性疾病,其主要风险因子在于人口密度,周边邻域的登革热发展情况以及交通。在全球化背景下,城市地区人口密度迅速增加,城市居民的日常活动交流日趋频繁,因此更加需要密切关注登革热病例的产生,一旦发现登革热病例,应当尽早将患者进行隔离治疗,防止登革热的进一步扩散传播。
3.8 结论
随机森林模型可很好地挖掘影响登革热的各类风险因子,量化各风险因子对登革热的影响程度,解释各风险因子间的相互关系;人口密度、周边邻域登革热状况对登革热影响最大。登革热作为一种强传播性疾病,在人口密集的城市地区,应及时收治感染人员进行隔离治疗,防止登革热的进一步扩展蔓延。研究结果可为疾病控制部门预防登革热提供参考,控制登革热爆发。随机森林模型同样适用于其他传染性疾病的时空扩散挖掘研究。
参考文献:
[1] 张海林,张云智,冯 云,等.云南省2005年登革热监测分析[J].中国热带医学,2006,6(7):1162-1163.
[2] 樊景春,林华亮,吴海霞,等.广东省2006-2011年登革热时空分布特征[J].中国媒介生物学及控制杂志,2013,24(5):389-391.
[3] IPCC. Climate change 2007:The Physical Science Basis.Contribution of Working Group I to the Fourth Assessment Report of the Intergovernmental Panel on Climate Change[M].Cambridge, UK:Cambridge University Press,2007.
[4] 毛祥华,张再兴.中国登革热的流行现状[J].中国病原生物学杂志,2007,2(5):385-388.
[5] 李卫红,陈业滨,闻 磊.基于GA-BP神经网络模型的登革热时空扩散模拟[J].中国图像图形学报,2015,20(7):981-991.
[6] 封 静,潘安定.广州气温变化特征及其与城市化进程的关系[J].广州大学学报(自然科学版),2011,10(6):89-94.
[7] 何隆华,周明浩,褚宏亮,等.遥感技术在蚊媒传染病研究中的应用进展[J].中国媒介生物学及控制杂志,2014,25(2):184-188.
[8] HALSETEAD S B. Dengue haemorrhagic fever-A public health problem and a field for research[J].Bull World Health Organ,1980,58(1):1-22.
[9] 王成岗.广东省登革流行特征及气象因素对广州市登革的影响研究[D].济南:山东大学,2014.
[10] M?NDEZ-L?ZARO P,MULLER-KARGER F E,OTIS D,et al. Assessing climate variability effects on dengue incidence in San Juan,Puerto-Rico[J].International Journal of Environmental Research and Public Health,2014,21:9409-9428.
[11] CHEONG Y L,BURKART K,LEIT?O P J,et al. Assessing weather effects on dengue disease in Malaysia[J].International Journal of Environmental Research and Public Health,2013, 10:6319-6334.
[12] SHEELA A M,SARUN S,JUSTUS J,et al. Assessment of changes of vector borne diseases with wetland characteristics using multivariate analysis[J].Environ Geochem Health,2015, 37:391-410.
[13] HSUEH Y,LEE J,BELTZ L. Spatio-temporal patterns of dengue fever cases in Kaoshiung City,Taiwan,2003-2008[J].Applied Geography,2012,34:587-594.
[14] ?STR?M C,ROCKL?V J,HALES S,et al. Potential distribution of dengue fever under scenarios of climate change and economic development[J].EcoHealth,2012,9(4):448-454.
[15] SARFRAZ M S,TRIPATHI N K,TIPDECHO T,et al. Analyzing the spatio-temporal relationship between dengue vector larval density and land-use using factor analysis and spatial ring mapping[J].BMC Public Health,2012,12:853.
[16] 李 森,陶海燕,秦 雁,等.基于b感与地理信息技术的登革热环境风险因子标识[J].中华疾病控制杂志,2010,14(9):869-873.
[17] 易彬樘,张治英.中国登革热流行及控制概况[J].中国公共卫生,2002,18(9):1128-1130.
[18] BREIMAN L. Random forests[J].Machine Learning,2001, 45(1):5-32.