前言:想要写出一篇令人眼前一亮的文章吗?我们特意为您整理了5篇参数估计范文,相信会为您的写作带来帮助,发现更多的写作思路和灵感。
Abstract: The non-parametric methodis a branch of probability statistics. Kernel density estimation will appear the boundary effect when estimating border region. This article proved the strong consistency of the given non-parametric condition kernel density estimation h■■(m,n).
关键词:非参数估计;Copula函数密度;条件核密度估计
Key words: non-parametric estimation;Copula function density;conditions kernel density estimation
中图分类号:F830 文献标识码:A 文章编号:1006-4311(2015)25-0214-02
0 引言
本文根据核密度估计方法不利于和有关数据分布的先验知识,因此将一些数据分布不增设其他的假设,那就是一些从基本数据样本本身出面来研究数据分布估算特征的办法,经过对核密度估计变化系数进行加权处理,就应该建立不同的风险投资价值的假设模型。参数估计一般应该分成参数回归分析法和参数判别分析法。为了解释此个问题的现有的方法含有参数估计法和非参数估计法,对参数回归一系列的分析中。
1 首先来了解非参数估计
非参数方法是概率统计学的一个分支,通常在一个统计课题中,如果确定或者假定了全体分布的清晰形式,并且其中含有一系列参数,要从来自全体的样本对这些参数做出的一系列估算或进行某种形式的假定检测,这种推理的方法称为非参数方法。
连续型随机变量的概率密度函数有如下性质:如果概率密度函数h(x)在一点x上连续,那么累积分布函数可导,并且它的导数,由于随机变量x的取值,只取决于概率密度函数的积分,所以概率密度函数在个别点上的取值并不会影响随机变量的表现。更准确来说,如果一个函数和x的概率密度函数取值不同的点只有有限个、可数无限个或者相对于整个实数轴来说测度为0,那么这个函数也可以是概率密度函数。函数型数据统计分析方式是近几年才开始发展起来的,它涉及到很多学科,比如分类学、医学、生物力学等,是在这些学科的基础上结合非参数统计推断理论、方法与应用研究形成的。并且因为这些学科中常常会用到大量的函数型数据,所以函数型数据统计分析方法也得到了广泛关注和应用。(应用了连续型随机变量的概率密度函数定义)
连续型的随机变量取值在任意一点的概率都是0。作为推论,连续型随机变量在区间上取值的概率与这个区间是开区间还是闭区间无关。要注意的是,概率L{x=a}=0,但{x=a}并不是不可能事件。非参数估计的目的就是在一定条件下,估计未知密度函数h(x)。对于一维实随机变量x,设它的累积分布函数是h(x)。如果存在可测函数h(x),满足:①f(x)?叟0;②■f(x)dx=1;③P(a
2 再来了解Copula密度函数
Copula函数解释的是变量空间的一般相关性问题,现实上是一种将联合分布函数与本身的各自边缘分布函数相连在一起的密度函数,所以我们还将它称为连接函数。上个世纪九十年代中后期的相关理论和解决方法已经在其他国家开始得到快速发展并且还应用到金融、医药等领域的相关分析、投资组合分析和风险投资管理等方方面面。在某些参数判别分析里面,一般需要假定认为辨别依据的、随机取样的数据样本在很多机会的类别中都配成特定的分布。实践表明,参数模型的这种基本设定和真实的物理空间模型之间存在的差别并不大,但是由此方法得到的结论却与现实相距甚远,这是因为密度估计方法不利于有关数据分布的先验知识,所以一些数据分布不增设其他的假设时,其结果很难令人满意。
通过了解知道Copula函数是两个边缘分布的连接函数,因此得出Copula函数的条件密度就是联合密度函数,在这种情况下需创新传统的估计方法,选用条件密度来估计随机变量间的相辅结构,在非参数核密度估计方法里面,条件概率密度核估计才是一整套相对比较完善的理论,因此将条件核密度估计理论在Copula函数的估计中进行应用,就可以得出在预定值超出所有知道的Copula类时刻对这种相依结构的非参数估计。
3 最后来了解条件核密度估计法
核密度估计方法在估计边界区域的时候会出现一般的边界效应。经过对核密度估计变化系数进行加权处理,就应该建立不同的风险投资价值的假设模型。参数估计一般应该分成参数回归分析法和参数判别分析法。
通过给定的集合样本点来分析随机变量的分布密度问题的函数是概率统计学的一个基础课题之一。解释此问题的现有方法包括参数估计法和非参数估计法。对参数回归一系列的分析中,通常来设定数据分布符合某些给定的特定的形态,比如可化线性分析、线性分析等,再次在目标函数中追寻一固定的解,那就是确定回归模型中的未知参数值。
假定联合随机变量(X,Y),其中(Xi,Yi),i=1,2,3…,备有一定的联合密度f(x,y)的Kp×Kq上各自单独分布的样本点,g(φ)是X的密度边缘,h(y│x)=■为给定X=x时Y的条件密度。令R1,R2分别是Kp及Kq上的核函数,{an},{bn}为可以设计的一个序列。h(y│x)的双重核估计定义为:hn(y│x)=■。
设(X,Y)的布局为δ,δ的着力点为D。X,Y的边缘分布分别为δ1,δ2,对应的着力点为D1,D2。对于任意的x=(x1,…,xp)∈Kp,y=(y1,…,yp)∈Kq,a>0,b>0,假定R1,R2,
an(x),bn(y)符合下面条件:R1,R2分别是Kp及Kq上的有边界概率密度边缘函数;R1,R2可积;Kp及Kq着力点有界;对与任何一个Kp中紧集H1和Kq中紧集H2,有■a■(x)0,a.s当n∞,■b■(y)0,a.s当n∞,对任意Kp中紧集H1和Kq中紧集H2,■a■(x)0,a.s当n∞,■b■(y)0,a.s当n∞,inf■∞,a.s当n∞,对于所有一切正整数n,x1,x2∈Kp,y1,y2∈Kq及所有的样本点(X1,Y1),…(Xn,Yn)皆成立。
从实际应用情况可以了解,按照给予的估计数量的不益的地方在于,窗宽{an},{bn}的给定应该重新再估算过。从历史上来看,这种理论已经得到了实践,且得到了广泛应用,查阅很多相关的已发表的论文或者著作,发现在大多数情况下窗宽都是常数的形式,因此在实际的应用过程中,若对窗宽进行限制,会存在很多不便的地方,那些窗宽不为常数的情况,最突出的情况就是1965年提出的“最近邻估计”,形同的估计在案例里也有很多的出现。
另知DEVROYE曾经出现过“自动选择窗宽”的核估计一般概念,那就是说窗宽基本由样本来给定,不过其研讨那窗宽与基于异议的(x,y)的位置相异,这些在实际运用上基本不能适应,按照(x,y)的地理位置不定相同,窗宽适宜区别很大。因此我在此文章中采用随机窗宽an(x)=an(x,X1,…,Xn),bn(y)=bn(y,Y1,…,Yn),把其中an,bn的区别代替以an(x),bn(y)作为h(y│x)的新估计,但是还是记为hn(y│x)。
这个时候所以就要重点看待的是,当M,N是[0,1]×[0,1]上的随机变量h■■(m,n)应该在此区域内的不定积分不一定等于1,为什么这样说,这是因为在选取不同的核函数是有一定的关系,所以这样了就与分布函数的概念自相产生了矛盾,因此为了解决这个疑问,所以就这个估算值必须重新来个标准,所以就标为h■■(m,n),假定
h■■(m,n)= 0,m?埸[0,1],n?埸[0,1]■,m∈[0,1],n∈[0,1]
所以h■■(m,n)为[0,1]×[0,1]上的密度函数,通过以下来假定一下h■■(m,n)与h■■(m,n)以及h(m,n)三者之间的函数关系。令m,n为[0,1]上的随机变量,其条件分布函数记为h(m│n),其联合密度为f(m,n),边缘密度为g(m),其中f(m,n),g(m)一致连续,inf g(m)>0,h■■(m,n)为h(n│m)的近邻估计,h■■(m,n),那么当n∞时,
■h■■(m,n)-h■■(m,n)0,a.s。因为联合密度函Copula函数等于其条件密度函数,因此就有■h■■(m│n)-h■■(m│n)0,a.s。
通过已知条件可以知道f(m,n)是一致连续,故f(m,n)有界,即?埚U′>0使得f(m,n)0,g(m)是一致的连续性,故?埚U>0,可以让■0,使得h(m│n)
?埚N1,当n>N1时有以下式子成立:f■■(v│u)N2时可以有如下不等式成立:
H(1,1)-?谆-F(0,0)-?谆
所以当n∞时,就有Hn(1,1)-Hn(0,0)1,a.s。因此suph■■(n│m)-h■■(n│m)=■■-h■■(n│m)=■(■-1)h■■(n│m)?燮(■-1)(U-?谆),a.s。
通过上式可以知道,当n∞时,即■h■■(n│m)-h■■(n│m)0,a.s。
所以■h■■(m,n)-h■■(m,n)0,a.s。
从上面可以看出来,已经证明了一切的非参数条件核密度估计h■■(m,n)的一致强相合性与关联。
4 结论
对参数回归一系列的分析中,一般先来设定数据分布符合某些给定的特定的性态,再次在目标函数中追寻一固定的解,那就是确定回归模型中的未知参数值。在选取不同的核函数是有一定的关系,所以这样了就与分布函数的概念自相产生了矛盾,因此为了解决这个疑问,所以就这个估算值必须重新来个标准,证明了一切的非参数条件核密度估计h■■(m,n)的一致强相合性与关联。
参考文献:
[1]赵凯鸽,袁永生,吴清娇.基于Copula理论和非参数极值估计在上下游水位的相关性分析应用[J].江南大学学报(自然科学版),2015-04-28.
[2]孔繁利.金融市场风险的度量――基于极值理论和Copula的应用研究[D].吉林大学博士论文,2006-04-01.
[3]陈江平,黄炳坚.数据空间自相关性对关联规则的挖掘与实验分析[J].地球信息科学学报,2011(1).
关键词:生长曲线,参数估计,伴随同化
0 引言
生长曲线(Logistic curve)也称S曲线,它是描述单一种群空间约束的生长过程曲线。其特点是开始生长较为缓慢,以后随着某些条件的变化,在某一段时间内增长速度较快,当达到某一界限之后,生长速度又趋于缓慢,以至最后停止增长,生长曲线的特征决定了其在生命科学领域中的广泛应用。论文大全。目前,生长曲线在其他领域中也得到广泛应用。例如向前忠将生长曲线模型用于高速公路诱增交通量预测,王吉权等将生长曲线用于电力负荷预测中。生长曲线的一般形式为
(1)
这里是某物种数量,、、是三个参数,应用时通常需要识别。参数识别是生长曲线
模型应用的前提,目前已有一些研究结果。如果令,,,则是如下方程的解
(2)
通常已知,于是只需要识别参数和,方程式(2)即为著名的Logistic模型。这里利用伴随同化方法对生长曲线的参数进行识别,同时将该方法用于文献[1]和美国1790-1950年人口数据。
1伴随同化参数识别方法
令为的观测,定义代价函数
(3)
这里为权重,为观测算子,为研究区间。代价函数是度量观测与模型解之间的距离函数,它反映在区间上与的拟合程度。于是模型参数识别问题就转换为以(2)为约束,以(3)目标函数的约束的极小值问题
(4)
构造拉格朗日函数
(5)
这里为的伴随变量。依据取极值的条件,容易得到满足
(6)
方程(6)称为方程(2)的伴随方程,需要逆向求解。依据(5)可计算代价函数关于模型参数的梯度
(7)
为方便,记
,(8)
于是可对模型参数进行校正
(9)
从而达到识别模型参数的目的。通常采用差分方法数值求解(2)和(6),这里采用精度较高的4阶Rounge-Kutta方法,但要注意(6)要逆向求解。归纳起来利用伴随同化方法识别生长曲线参数的步骤如下:
1) 正向积分方程 (2);
2) 逆向积分方程 (6);
3) 计算梯度和代价函数;
4) 调整参数,为步长;
5) 如果则迭代终止(为事先给定的迭代终止参数),否则转(1)。
2 数值实验
2.1 基于文献[1-2]数据的数值实验
由文献[1-2]可知,某种大豆的叶面指数y(t)与生育日数t的关系如表1的第一行和第2行。第3行为本文的结果,第4行为文献[2]的结果。通过表1可看出,本文方法可以较好地识别出参数值,本文得到生长曲线
(10)
表1 数值实验结果
Abstract: In recent years, the research of the semi-parametric regression model which is a potentially tool for dealing with the regression has attracted considerable attention and becomes an important field in the regression analysis. This paper discusses the semi-parametric regression model with AR(p)errors, the problem of the autocorrelation is solved firstly, then the penalized least square estimation of the model is given.
关键词: 半参数回归;AR(p);惩罚最小二乘
Key words: semi-parametric regression;auto-regression;penalized least square
中图分类号:O212 文献标识码:A 文章编号:1006-4311(2012)20-0301-02
0 引言
半参数回归模型可以看作是参数回归模型和非参数回归模型的混合模型,是线性模型的推广。由于其适应数据变化的能力强,所以它是寻求变量之间关系的有力工具,近年来在经济学,医学和社会等领域的实际问题中有着广泛的应用。
①模型简介:
模型
y■=x■■β+g(t■)+μ■ i=1,…,n(1)
其中y■为影响变量,xi∈Rm为m维解释变量,g(ti)是模型的参数部分,它是R上的未知光滑函数,μ■是随机误差,若μ■满足Gauss-Markov假设。则模型(1)经典的半参数回归模型。
但是在实际问题中,一般模型(1)的误差项μ■很难同时满足Gauss-Markov的三个假设。若cov(μ■,μj)=0,i≠j不成立,则说明误差项存在着异方差性。
模型
y■=X■■β+g(t■)+μ■ i<p时μ■=φ■μ■+φ■μ■+…+φ■μ■+ε■ i>p时(2)
其中X■■=(Xi1,…Xin) β=(β1,…βn)T,ε■满足Gauss-Markov假设,即E(ε■)=0 Var(ε■)σ2,Cov(ε■,εj)=0,(i≠j)
则模型称为具有AR(p)误差的半参数回归模型。
②半参数回归模型的研究现状:
由于半参数回归模型既充分利用了数据的信息,又将一些信息不充分的变量纳入了模型,因而,基于半参数回归模型所得到的推断结果一般比参数和非参数模型更加优良,所以对这种模型有许多方面的研究,Severuni对异方差半参数回归模型参数与非参数部分估计作了研究[1],Chen研究了半参数广义线性模型的渐近有效估计[2],王启华等研究了随机删除的半参数回归模型[3],曾林蕊等研究了半参数广义线性模型的统计诊断和影响分析[4],胡宏昌研究了误差为AR(1)情形的半参数回归模型的极大似然估计的存在性问题[5],但是对于误差为AR(p)情形的半参数模型还未发现进行相关的研究,文章就对此模型进行了相关性消除,然后对其进行了惩罚最小二乘估计。
1 模型误差项相关性的消除
对于模型(2)
yi-φ1yi-1-……-φpyi-p
=X■■β+g(t■)+μ■-φ■X■■β+g(t■)+μ■-…-
φ■X■■β+g(t■)+μ■
=X■■-φ■X■■-…-φ■X■■β+g(t■)-φ■g(t■)+μ■-φ■μ■-…-φ■μ■
=■X■-φ■X■-…-φ■X■β■+
g(t■)-φ■g(t■)-…-φ■g(t■)+ε■
若令■=y■,■=X■,■(t■)=g(t■) i=1,2,…p■=y■-φ■y■-…-φ■y■■=X■-φ■X■-…φ■X■■(t■)=g(t■)-φ■g(t■)-…-φ■g(t■)
则(1)式可化为:
■=■β+■+ε■ i=1,…,n(3)
由于ε■,…,εn是满足Gauss-Markov假设,故(3)式满足经典的半参数回归模型的假设,下面我们通过研究模型(3)来间接研究模型(2)。
2 模型的惩罚最小二乘估计
为下面计算方便设:
M=■
则有■=MY,■=MX,■=Mg,ε=Mμ
定理:模型(3)的惩罚最小二乘估计为:
■=■(I-N)■■■(I-N)■
■=M■N■-■■
证明:对于模型(3),求β,g的光滑样条估计,即求■和■使得光滑样条函数取得最大值。
PL(β,■)=Ln(β,■)-■(4)
其中对数似然函数
Ln(β,■)=-■log(2πσ■)-■■■■-■■β-■(t■)■
令
Abstract: In this paper, we discussed the parameter in Price's documental growth model and the shortage of three methods for estimating. Further, the modified estimation methods are given. The modified methods are more reasonable and their numerical results are satisfactory.
关键词:文献增长模型;参数估计;3准则;最小二乘法
Key words: documental growth model;parameter estimation;rule of 3σ;least square method
中图分类号:G350文献标识码:A文章编号:1006-4311(2010)20-0117-02
0引言
美国科学学与情报科学家普赖斯(D.J.Price)提出的揭示科技文献数量随时间的变化规律的文献指数增长模型如下:
Y(t)=aebt(1)
其中Y(t)表示t时刻已积累的科技文献量,a为某初始时刻(用t=0表示)的科技文献量,e是自然对数的底数,b为某常数。
显然,要利用(1)式来具体描述某类科技文献数量随时间的变化规律,最关键的是要确定出参数b。在文[1]中探讨了参数b的含义,认为参数b近似等于“单位时间”内文献数量的增长率,并以此为基础给出了两种确定参数b的方法;文[2]在接受文[1]对参数b的释义的基础上,提出了一种更简捷的确定参数b的方法。本文将分析文献[1,2]方法的不足,并分别提出了其改进的方法。
1对普赖斯增长定律中参数b的理解
设Y(t)表示t时刻已积累的科技文献量,a为初始时刻t=0时的文献量,如果设单位时间内新增文献量是已有文献量的b倍,则得微分方程初值问题:
=bY(2)
Y(0)=a(3)
求解此初值问题得Y=aebt,可见普赖斯文献增长定律的表达式正是该初值问题的解。
如果将方程(2)变形成=b,则可看出参数b正是单位时间内的文献增长率。因此这里对参数b的理解跟文[1]的解释是一致的。但在文[1]的推演过程中要求b
2参数b的估计方法的讨论
2.1 对文[1]方法的改进普赖斯文献增长定律的应用,最关键的是参数b的确定。单位时间内的文献增长率可作为b的近似,但不同时段内文献增长率可能是变化的,因此文[1]提出了对文献增长率取平均的两种方法,并把算得的“平均值”作为参数b的估计值。
方法一(文[1]称其为“全段平均值技术”):如果统计数据表明各时间段的增长率的最大值和最小值之间差距不大时,则取各时间段的增长率的算术平均值作为b的近似。
方法二(文[1]称其为“去头尾取平均值技术”):如果统计数据表明各时间段的增长率的最大值和最小值之间差距较大时,则去掉一个最大值,去掉一个最低值。然后对剩下的增长率取算术平均值作为b的近似。
文[1]给出的这两个方法简单易算,但存在一个问题,就是最大值与最小值之间的差距“不大”和“较大”怎么理解,相差多少算“不大”或“较大”,没有给出量化标准,这个问题不解决,这两个方法就缺乏可操作性。为解决这个问题,本文利用数据处理中常用的所谓3σ准则,把这两个方法统一起来,并进行改进。
一般来说,我们可假设文献增长率r服从正态分布,即r~N(μ,σ2)。根据概率统计知识,我们知道增长率r介于μ-3σ与μ+3σ间的概率为99.74%,因而增长率r?燮μ-3σ或r?叟μ+3σ可能性就很小。如果某个增长率数据r落在区间(μ-3σ,μ+3σ)之外,则可认为此数据r异常,应予以剔除。这就是3σ准则的思想。即使不作增长率服从正态分布的假定,我们也可由切贝谢夫不等式知P(│r-Er│?叟3)?燮
下面我们假设“单位时间”为年,根据3σ准则,给出确定年平均增长率的方法。
方法三:设r1,r2,…,rn为n个年份的文献增长率,可先算出样本均值和样本标准差:
=r(4)
s=(5)
因为样本均值和样本标准差s可作为总体均值μ和总体标准差σ的近似,所以我们认为若某个rk落在区间(-3s,+3s)之外,即增长率rk偏离样本均值太多,要么是偏小,要么是过大,属于异常数据,应将rk剔除。
将r1,r2,…,rn中的异常数据都剔除后,对剩下的增长率取算术平均值作为参数b的近似。
方法三显然是对文[1]中的方法一、方法二的改进,不光统一了方法一和方法二,也给出了剔除异常数据的量化标准,精确表述了“偏大”、“较小”的含义。
2.2 对文[2]方法的改进文[2]以年为“时间单位”,设a为初始时刻t=0时的文献量,Y(n)为第n年末(t=n)时的文献累积量,r为年增长率,则Y(n)=a(1+r)n,所以r=-1
根据文[1],b≈r,从而文[2]给出确定参数b的公式:
b=-1(6)
正如文[2]所述,这个公式比文[1]的两个方法都更简单,但公式只用到初值和终值,而完全不涉及中间过程中的年份的数据,这显然不合情理。如果允许只用文献量的初值和终值来计算参数b,那么我们可以直接在普赖斯增长定律Y(t)=aebt中令t=n,则可得:
b=ln(7)
由(7)式计算参数b应该说比用(6)式更好,因为(7)式是由普赖斯增长定律直接导出的,而不存在把b近似地解释为年增长率的误差问题。但我们认为仍然不能用(7)式来确定参数b,这正如由序列数据求回归直线时不能只由两点就把直线确定下来一样。
在普赖斯增长定律Y(t)=aebt两端取自然对数得:
lnY(t)=lna+bt(8)
lnY(t)是关于时间变量t的线性函数,系数b可由时间序列数据通过线性回归或最小二乘法来确定,这样确定的b使得整体误差Q=[lnY(t)-(lna+bt)]达到最小,而不只是与初值(t=0时)和终值(t=n)时完全吻合。
我们认为,由于文[2]的方法完全不涉及中间年份数据,因此它的计算结果不应和文献增长的变化情况吻合得好。由(8)式通过线性回归虽然计算上比用(6)式稍复杂一些,但所得b值更能整体上反映文献增长的变化规律,比文[2]的方法更具有合理性。下面的计算实例也说明了这一点。
3计算实例及结果比较
为了叙述方便,下面我们把用公式(6)求参数b的方法叫做方法四。而把从(8)式出发通过线性回归来确定参数b的方法叫做方法五。为了便于比较,我们下面的计算引用的原始数据完全同于文[2],即我国1979年~1993年的社科类图书出版种数,具体数据见表1。
根据表1中的数据,文[2]已按方法一[1],方法二[1],方法四[2]分别计算出参数b的值,我们按方法三,方法五分别求出了参数b,现将文[2]的计算结果和我们用新方法计算的结果一并给出如下。
方法一:b=b1=0.360358872
方法二:b=b2=0.280085925
方法三:根据3σ准则,1980年的增长率(其值为1.564263323)为异常数据,去掉该数据后求得参数b=b3=0.267750836
方法四[2]:r=b=b4=0.299935918
方法五:利用(8)式通过线性回归求得b=b5=0.243580459(我们还算得相关系数为0.955701057,比较接近1,说明(8)式中lnY(t)与t具有较强的线性相关性,当b=b5=0.243580459时,模型(1)是合同理可用的。)
同文[2]一样,我们也利用方法三和方法五估计出的参数b代入普赖斯增长模型(1)中,求出1980年至1993年各年份的文献量的理论值,与这一时段各年份的实际值比较,我们发现方法三的计算结果比方法一、方法二的要好,而方法五的整体误差比其余四个方法的误差都小。因此从某种意义上讲,通过回归方法确定参数b更合理些。
参考文献:
[1]罗式胜. 关于普赖斯曲线方程参数b的讨论[J].情报理论与实践,1994,(1).
关键词SV模型 ;贝叶斯估计;MCMC方法
中图分类号O218.8文献标识码A
1引言
波动性是金融市场最为重要的特征之一,关于有价证券的收益率波动一直是金融学研究的热点.为了对波动率进行估计,学者们进行过广泛而深入的探索,其中最具代表性的两类模型分别是Engel[1]提出的自回归条件异方差(ARCH)类模型和Taylor[2]提出的随机波动率(SV)模型.但ARCH类模型中条件方差的估计值与过去扰动项直接相关,因此当存在异常观y值时,模型估计出的波动序列不是很稳定.而SV模型假定时变方差是一类不可观测的随机过程,因此其估计的波动序列比ARCH类模型更加稳定.对此,Shephard[3]通过对比两类模型,发现SV模型比ARCH模型能更好地描述金融数据的特性,特别是对2个模型的预测的均方误差的比较发现,SV模型比ARCH模型具有更好的预测能力,尤其是对长期波动性的预测[4].
但是,由于SV模型自身的复杂性,模型的似然函数解析式与无条件矩的解析形式往往难以获得,无法进行极大似然估计,故如何对SV模型进行参数估计就是一个具有现实意义的问题.对此,Metropolis提出了马尔科夫蒙特卡洛(MCMC)方法,Hasting[5]在此基础上提出了MetropolisHasting算法,Geman[5]提出了Gibbs抽样,这两种算法因其灵活性和计算机技术的发展,使得针对复杂模型及其后验分布的精确估计成为可能.除了MCMC方法,国外学者对SV模型的估计方法进行了大量研究,并取得了丰富的成果:Harvey[5]等人的伪极大似然估计,Anderson,Chung[5]的有效矩估计, Dimitrakopoulos Stefano[6]针对时变参数SV(TVPSV)模型提出的一种半参数贝叶斯估计方法,Milan Mrázek[7]等人基于非线性最小二乘法对分数维SV模型参数估计精确度的校准.在众多估计方法中,蒙特卡罗随机模拟相对于其他方法,效率较高,易于编程实现.本文即选用基于贝叶斯的MCMC方法对SV模型进行参数估计.
由于许多金融时间序列的无条件分布与标准正态分布相比,会呈现出较大的峰度和更厚的尾部,因此为了将基本的SV模型扩展到较一般的形式,经过学者们多年的研究,SV类模型已经发展出了离散和连续两类的众多扩展模型.比如,Geweke[7]对模型进行贝叶斯分析时提出了厚尾SV模型,即将标准SV模型中观测方程的随机误差项设定为具有厚尾特征的概率分布如t分布、GED分布等,从而可以更好地描述金融时间序列的尖峰厚尾特征.Bredit[8]针对金融波动序列的长记忆性提出了长记忆随机波动模型(LMSV),Chib[5]将跳跃过程引入到了SV模型中,提出了跳跃SV模型,并提供了一种快速有效的估计模型参数的MCMC算法,以此来解决如何反映金融市场中的突发事件和较大波动的问题.
经济数学第 34卷第1期
黄文礼等:厚尾随机波动率模型的贝叶斯参数估计及实证研究
近年来,国内学者对SV模型进行了大量研讨,这其中包括:刘凤芹和吴喜之[9]利用一种改进的MCMC方法估计了SV模型,并对上证指数进行了波动性分析;朱慧明[10]在研究沪深300股指期货数据时,考虑到期货市场与现货市场之间存在双向波动溢出效应以及仿真交易与实盘交易在期货与现货联动性、交易策略等方面存在的差异,建立了一个多变量厚尾SV模型,并借助MCMC方法实现了模型的参数估计.于冉春[11]分别选用标准SV模型和厚尾SV模型对美国标普500指数进行了实证分析,得出厚尾SV模型更能够准确描述标普指数波动具有长期记忆性的特征.而吴鑫育、马超群[12]等以上证指数和深证成指为例,提出极大似然方法估计了4种不同收益率分布假定的SV模型,通过比较认为具有偏学生t分布假定的SVSKt模型能够更好地描述中国股票市场的波动性.在研究中发现,我国股市呈现出许多不同于传统研究中波动的典型特征,比如反杠杆效应,即股票价格运行未来价格波动呈现正相关关系,特别是2015下半年和2016年年初,整个股市出现了罕见的大幅波动.而对于具有以上新型特征的中国股市,有关厚尾SV模型是否还能有效刻画出我国资本市场波动性的相关研究还相对缺乏.本文考虑到金融时间序列普遍存在的尖峰厚尾性,为了验证SV模型对现阶段我国股市的拟合效果,拟进行基于MCMC仿真的厚尾SV模型的贝叶斯参数估计,研究以上证综指为代表的金融时间序列的波动特征.
2厚尾SV模型结构
重复以上步骤进行N次迭代,直到Markov链达到平稳状态.在Gibbs抽样的初始阶段,参数的初始值设定对随机数的生产有较大的影响,此时Markov链是非平稳的,所以在估计模型参数时,通常去掉最初的M个非随机数,对剩下的NM个抽样数据进行模型参数的后验分布统计推断.
4估计结果和分析
4.1样本数据和统计特征
2015年开始,中国股市再次表现强劲,然而受多种因素影响,上证综指又从2015年6月的5 300多点跌至2016年5月的2 800多点,期间又经历了2016年年初的熔断机制事件,短短一年多时间,中国股市就经历了史无前例的大牛市和超级熊市,股票价格波动剧烈,这表明我国股市还存在非常多的问题.因此本文使用的数据包括2013年5月~2016年6月的上证指数历史收盘价,样本容量为752,涵盖了本轮牛市之前、期间、之后的数据,以分析中国股市的波动特征.收益率的计算本文均采用对数收益率方法,并绘制出对数收益率的时序图和直方图,见图1.同时,利用QQ图对上证指数的统计特征进行分析(见图2).
通过分析,发现上证指数实际数据的峰度比正态分布数据的峰度要高,腰部较瘦,尾部较厚,并且直方图并不是完全对称的,而是略有偏斜.从Q-Q图中可以很明显的看出上证指数和指数的收益率分布在收益和损失两端均偏离直线,因而表现出明显的厚尾特征,也就是出现异常值的频率比正态分布的要高.因此再次验证了中国股市尖峰厚尾特性.
4.2参数估计结果和分析
本文使用MCMC仿真方法对厚尾SV模型进行贝叶斯参数估计,首先对每个参数进行 1 000次迭代,进行退火,以保证参数的收敛性.然后舍弃原来的迭代,再进行10 000次的迭代对模型进行模拟仿真的过程.图3给出了厚尾SV模型参数相应的后验分布密度函数仿真结果,参数估计结果见表1.
由图3可知,对于厚尾SV模型的参数,其后验分布密度图基本上是对称的,说明这些参数的贝叶斯估计值与真实值非常接近,误差很小.但是对于参数τ,其后验密度函数都呈现出右偏趋势,说明这些参数的样本中存在一些偏大的异常点,使得它们的贝叶斯估计值比真实值要大,因此参数τ可能会被高估.同样得,参数φ的后验密度函数呈偏左趋势,说明参数中存在一些偏小的异常点,使得它们的贝叶斯估计值比真实值要小,故参数φ可能会被低估.
虽然厚尾SV模型的某些参数的贝叶斯估计值可能会偏高或偏低,但是整体看来,模型各个参数的后验分布密度都具有非常明显的单峰特征,说明利用后验均值对模型参数进行估计的误差是非常小的.因此,综合对厚尾SV模型参数的样本轨迹图以及后验分布密度图的分析可知:对厚尾SV模型参数进行贝叶斯估计是合理的,并且估计结果是有效的.
结合模型参数的贝叶斯估计情况,首先可以看出SVT模型参数的估计结果是比较精确的,各参数的MCMC误差相对于标准差都要小很多,再一次验证了对厚尾SV模型参数进行贝叶斯估计的合理性.并且在程序运行的时间也较短,表明算法的精确度和效率是比较好的.同时可以得到以下结论:厚尾SV模型的厚尾成分参数ω估计值为16.1,且MC误差为0.239 7,表明上证综指的收益率不服从正态分布,具有明显的厚尾特征,此结论与前面对QQ图的分析结果是一致的;厚尾SV模型的波动持续性值φ为0.860 4,这说明上证指数具有较为明显的波动持续性,这也与在实际生活中的感受相吻合:样本数据涵盖了2013年~2016年的上证指数收益率,期间整个资本市场经历了多轮较大起伏的波动,且一个大的波动之后往往跟着另一个波动.SVT模型在模拟波动持续性这一波动特点上的具有良好的拟合效果.
5总结
本文针对厚尾SV模型进行了贝叶斯分析,分析了模型的结构特征,对模型的参数进行了贝叶斯统计推断,设计了模型参数估计的Gibbs的抽样算法.在对中国股市的波动性进行实证研究时,选取了近一轮股市波动前中后三个不同阶段的数据,以更加全面地了解我国股市的波动特征,并以此为例来检验厚尾SV模型在新兴资本市场当中的拟合效果.结合对上证指数的统计分析以及MCMC抽样方法中参数的样本轨迹收敛性,本文认为,在股市经历较大幅度波动时,厚尾SV模型仍然能够比较准确地描述中国股市的波动性特征.
参考文献
[1]Engel R F. Automatic conditional heteroscedasticity with estimation of the variance of the united kingdom inflation [J].Econometrica, 1982, 50(4):987-1007.
[2]Taylor S J. Modelling financial time series [M].Hoboken: John Wiley,1986.
[3]Harvey A, Shephard N. Estimation of an asymmetryic stochastic volatility model for asset returns [J].Journal of Business and Economic Statistics,1996,14(4):429-434.
[4]郝利, 朱慧明. 贝叶斯金融随机波动模型及应用[M].北京:经济管理出版社, 2015.
[5]于冉春. 基于MCMC贝叶斯方法的随机波动率模型实证研究[D].上海:上海师范大学商学院. 2014.
[6]Dimitrakopoulos S. Semiparametric Bayesian inference for timevarying parameter regression modelswith stochastic volatility [J].Economics Letters. 2017,150(1):10-14.
[7]Milan M, Jan P, Tomá S. Oncalibration of stochastic and fractional stochastic volatility models [J].European Journal of Operational Research. 2016,254(3):1036-1046.
[8]黄超. 基于贝叶斯跳跃厚尾随机波动模型的中国股市波动性研究[D]. 长沙:湖南大学工商管理学院. 2010.
[9]Breidt F J, Crato N, Lima P. The detection andestimation of long memory in stochastic volatility[J].Journal of Econometrics,1998,83(1):325-348.
[10]刘凤芹,吴喜之. 随机波动模型参数估计的新算法及其在上海股市的实证[J].系统工程理论与实践, 2006, 26(4):27-31.
[11]朱慧明, 李锋, 杨锦明. 基于MCMC模拟的贝叶斯厚尾金融随机波动模型分析[J].运筹与管理. 2007, 16(4):111-115.
[12]吴鑫育,马超群,汪寿阳. 随机波动率模型的参数估计及对中国股市的实证[J].系统工程理论与实践. 2014,34(1):35-44.
[13]Kim S,Shephard C.Stochastic volatility:likelihood inference and comparison with ARCH models[J].Review of Economics Studies, 1998,224(65):361-393.