首页 > 文章中心 > 正文

多元线性回归下环境监测数据分析

前言:本站为你精心整理了多元线性回归下环境监测数据分析范文,希望能为你的创作提供参考价值,我们的客服老师可以帮助你提供个性化的参考范文,欢迎咨询。

多元线性回归下环境监测数据分析

摘要:目前的环境实时监测数据精度和适用范围都有一定限制,为此提出并改进一种新的环境预测模型,用于预测大气环境质量,收集6个空气污染物指标和5个相应的气象指标并进行检测。研究发现通过逐步线性回归优化多元线性方程,可以准确预测短期大气环境质量,改进后的模型可以相对准确地预测未来大气污染物的质量浓度。

关键词:环境监测;多元线性回归;数据分析;预测模型

0引言

近年大气环境污染严重,大气环境污染会直接导致人们生活环境质量下降,影响人体健康,同时会造成巨大的经济损失[1-3]。目前的大气环境监测数据主要是通过历史监测数据,对未来大气环境质量的变化趋势进行预判,以便更有针对性地对人们生活生产活动进行指导[4-5],同时为政府相关决策和管理部门在相关制度制定过程中提供科学依据[6-8]。目前对大气环境质量预测的方法主要包括数值预测以及统计预测,统计预测以历史数据统计分析为主,结合未来发展规划。数值预测,主要是指利用数学模型进行计算或仿真。根据经典的划分方法,数学方法可以分为以下3类:第一类是“梯度输运理论”,它假定湍流通量与平均梯度成正比;第二种是以泰勒统计理论为基础的“湍流统计理论”;第三种是以量纲分析为基础的“相似理论”。然而数值预测的模型精度低于统计预测[4],且适用范围有一定的限制[9-10]。因此,本文采用数据易获取且预测精度高的统计预测-多元线性回归方程进行大气环境预测分析。

1研究基础

1.1多元回归模型

当2个或以上自变量和因变量存在线性关系时,即为多元线性回归。其数学模型[11-12]如式(1):y=a1+a2x1+a3x2+…+am+1xm+ε(1)其中,a1,a2,a3,…,am+1为回归系数,ε为随机误差。回归系数估计值采用式(2),minQ=∑nt=1[y1-(a1+a2x1t+a3x2t+…+am+1xmt)]2(2)待多元线性回归方程求出之后,需要对其进行检验以确定其精确度。常用的检验方法包括相关系数检验、F检验和t检验[13]。(1)相关系数检验相关系数是用来衡量线性模型拟合程度的指标,数学表达式是回归平方和占总平方和的比值,如式(3):R2=SSR/pSST/n-p-1(3)(2)F检验F检验用来检验线性模型中自变量和因变量之间的关系是否显著,如式(4):(3)t检验通过t检验可以决定作为某一变量是否作为自变量保留在模型中,如式(5):式(3)~式(5)中,SST表示因变量观测值和均值的差异的偏差平方和,SSR是由自变量引起的偏差,即回归平方和,SSE是实验误差等引起的剩余平方和,其关系如式(6):

2数据采集与处理

2.1数据采集

根据GB3095—2012标准对大气环境质量进行评价。对PM2.5、PM10、CO、SO2、O3以及NO2共6项污染物指标进行监控。例如在监测现场,共有23000个PM10质量浓度数据,其中20000个用作训练数据,3000个用作测试数据。此外,温度、湿度、风速、风向、气压等气象条件会通过影响污染物在大气环境中的扩散而影响大气环境质量,如高湿度会加剧空气污染程度。因此,本文收集6个空气污染物指标和5个相应的气象指标。

2.2数据处理

根据每个大气数据合理分布范围和相互关系,检查数据是否存在异常或互相矛盾的数值,将异常数据进行剔除。另外采集到的数据可能存在无效或缺失的情况,采用变量平均值进行估算补充。为减小大气监测数据之间量级、量纲的差异而导致的预测模型精确度下降的情形,对数据进行归一化处理。归一化至[0,1]区间,设xmax和xmin分别代表原始数据最大和最小值,xi为实际数据,xi表示归一化之后的数值,归一化计算式为之后采用计算式xi=(xmax-xmin)xt+xmin换算出输出值。

3预测模型

3.1传统多元线性回归预测模型

将预处理过的数据构造出多元线性回归模型,并进行相关系数检验、F检验和t检验。之后将预测结果和测试数据进行对比。因变量是PM10,自变量是温度、气压等5项气象数据,建模方法是全部输入。(1)相关系数检验结果如表1所示,R2代表拟合效果,其值越大,说明拟合效果就越好。(2)F检验结果如表2所示。从表2可以看出,F检验结果小于0.01。因此5项气象指标对PM10质量浓度具有显著的影响。(3)t检验结果如表3所示。非标准化系数用于列出回归方程。标准化系数用来表示自变量对因变量的影响程度;偏回归系数用来判断某一自变量对因变量的影响是否有统计意义,当其小于0.05时,具有显著的统计意义;当小于0.01时,统计学意义非常显著。(4)预测模型线性回归方程为:y=-3.796×1-1.296×2+2.223×3-55.059×4-0.207×5+398.212真实值和预测数据对比如图1所示。

3.2改进的多元线性回归预测模型

考虑到污染物质之间存在物理化学反应,同时季节因素对污染物也有重要的影响。因此,将其他污染物和季节因素一并纳入多元方程进行优化。季节变量取值为:春季108.1μg/m3,权重0.25;夏季97.8μg/m3,权重0.2;秋季112.3μg/m3,权重0.25;冬季121.9μg/m3,权重0.3。通过将自变量逐个引入回归模型,进行显著性检验,直至所有显著自变量均被引入回归模型。逐步回归模型结果如表4所示。从表4可以看出,PM2.5对PM10的影响最大,而大气污染物SO2、NO2、CO以及气象因素风向对PM10的影响可忽略,因此将这几项指标删除后,得表5。得回归方程:y=30.304×1+19.729×2-0.359×3+8.541×4+0.897×5+5.184×6+10.280×7-90.087采用该模型,所得真实值与预测值如图2所示。从图2可以看出,优化后的模型,拟合度达到0.828,比原始模型明显提高,说明采用逐步线性回归方式,将气象因素以及其他污染物质一并考虑之后,对PM10的预测将更加准确。此外,从图2也可以看出,短期的预测误差最小。同时,PM2.5、风速、气压、湿度和季节对PM10质量浓度有增强作用。PM2.5对PM10的影响最大,O3和温度对PM10的影响有所减弱。2种预测模型效果对比如表6所示。

4总结

本文分别采用原始多元线性回归模型以及优化后的模型,分别对大气环境质量进行预测,得出如下结论。(1)传统多元线性回归模型只能相对粗略地预测大气环境质量变化趋势,而其改进模型能够相对准确地对未来大气污染物质量浓度进行预测。(2)采用逐步线性回归方式将气象因素以及其他污染物质一并考虑能够更加准确地对PM10进行预测,且对短期内的预测误差最小。

作者:翟维 单位:西安航空学院