前言:想要写出一篇令人眼前一亮的文章吗?我们特意为您整理了5篇模式识别技术范文,相信会为您的写作带来帮助,发现更多的写作思路和灵感。
1 决策树构造原理
1.1 拆分规则
对于决策树的构造来说,拆分规则是用来确定每个节点上应该使用哪个变量,而确定哪些变量的组合把样本分成若干子群同样属于拆分规则的作用。在拆分规则的具体应用中,我们首先需要确定对变量取什么阀值,这一阀值的获取需要首先进行各拆分的设定,图1为简单的分类树样图,结合该图我们不难发现,该图对的阀值为(a,b,c,d),而(x1、x2、x3、x4)是其各特征变量,而由此给分类树得以实现(w1、w2、w3)的不同类划分。值得注意的是对于阀值获取中的各拆分设定来说,我们需要将x∈Rp这一向量包括在坐标条件上[1]。
结合这一分类树样图,我们就需要应用L{(xiyi),i=1,...,n}这一带有标签的训练集进行分类树的具体构建,而在这一构建的分类树中,x1与y1分别为数据样本与相应的类别标签。令N(t)为L中xi∈u(t)的样本数,Nj(t)为xi∈u(t)且yi=?棕j(?撞jNj(t)=N(t))的样本数,定义p(t)=■为p(x∈u(t))基于L的估计;p(?棕j|t)=■为P(y=?棕j|x∈u(t))基于L的估计[2]。
结合上文内容,我们可以就u(t)这一节点t上的上子空间进行拆分,而为了较好保证这一拆分的品质,我们就需要对反映不纯度函数的变化进行度量,这一度量过程需要实现不纯度函数最大化下降,而这一最大化下降的实现就需要得到?祝(sp,t)?艿?祝(t)-(?祝(tL)pL+?祝(tR)pL)的支持,而这本身就属于所有拆分sp的选择。结合?祝(sp,t)?艿?祝(t)-(?祝(tL)pL+?祝(tR)pL),我们需要应用吉尼不纯度准则,这样才能够顺利实现对多种形式?祝(t)的针对,?祝(t)=■p(?棕i|t)p(?棕j|t)就是这一吉尼不纯度准则应用的结果。应用这一吉尼不纯度准则结果进行CART的训练,我们就能够组成单个变量阀值,即sp={x,xk?燮b},这其中的k=(1,...,p),b则在实数范围取值。考虑到要考察拆分数量的限制必要,我们需要限制b只能取一个有限值,而为了避免过量计算,在具体的分类树节点拆分中,我们需要应用剪枝算法结束这种节点拆分。
1.2 剪枝算法
所谓剪枝算法,其本身首先需要形成1棵终止节点具有纯的类别成员的树,这样才能够具体进行剪枝算法的应用。在具体的剪枝算法应用中,我们首先需要进行R(t)的定义,这一定义需要将R(t)定义为给定树T每个节点t相关节的实数。若t为终止节点,t∈■,M(t)为u(t)中不属于与该终止节点相关类别的样本数,而n则为数据点总数。对于实数?琢来说,令R?琢(t)=R(t)+?琢,规定R(t)=■R(t),R?琢(T)=■R?琢(t)=R(t)+?琢。分类中,R(t)是估计错分率,■为表示集合■的基数,?琢为常数,R?琢(t)为分类树的估计错分率复杂度[3]。
在具体的CART剪枝算法应用中,我们就可以令R(t)=r(t)p(t),这里的r(t)本身指的是错分概率的重新替代估计,而结合样本r(t)=1-■p(?棕j|t),o定落入节点t就能够得到较好支持。如果这里的t本身为终止节点,那么R(t)便是指代该节点对总错误的影响。这里我们将Tt用于便是子树,我们就可以对子树与节点t对复杂度代价的影响进行深入分析,结合公式?琢=■,以及最后定义的g(t)=
■,笔者提出了图2所示的原始树举例。值得注意的是,g(t)=■公式为t连接强度的测度。
结合图2所示的原始树,我们可以通过不断进行子树具有最小g(t)值节点的寻找,最后较好发现跟节点,这样我们就可以应用Tk表示第k步得到的树,也能够通过R(Tk)表示最小的子树。
2 智能系统框架设计
(1)目标获取:对于智能系统框架设计中的目标获取环节来说,这一环节需要应用雷达等设备获取具体的目标电子特征信号,这样才能够为后续的智能系统框架设计提供有力支持。(2)目标转换:在获取目标电子特征信号的频率、脉冲重复周期和脉冲宽度后,我们就需要对获取的这类信息进行目标转换,这一目标转化也可以被称为原始信号的预处理。在具体的目标转换过程中,我们需要将目标电子特征信号的频率、脉冲重复周期和脉冲宽度进行放大、整形、滤波以及A/D转换。(3)转换后数字信号的处理:在将目标电子特征信号的相关组成进行放大、整形、滤波以及A/D转换后,我们就可以将转换取得的数字信号送入PC中,结合上文研究中设计好的分类树模块进行具体的分类运算,转换取得的数字信号由此实现智能分类。(4)信号传输:在完成通过终端显示结果后,我们还需要对取得的结果进行信号传输,这一信号传输主要是通过网络化手段实现战场前沿信息与后方的实时共享,这对于我军战斗力的提升将带来较为积极的影响。
3 结束语
在本文基于模式识别与智能系统技术的发射器类型识别方法展开的研究中,笔者详细论述了决策树构造原理、智能系统框架设计,而结合这一系列论述我们就能够较为深入地了解利用分类树原理的发射器类型识别的方法,而这种方法具备的清楚鉴别与每个雷达相关的特征空间区域特征,也使得其本身能够较好服务于我军战斗力的提升。
参考文献
[1]廖雯竹,潘尔顺,王莹,等.统计模式识别和自回归滑动平均模型在设备剩余寿命预测中的应用[J].上海交通大学学报,2011(7):1000-1005.
关键词:对齐;未登录词识别;构词模式;词性;分词碎片
中图分类号:G353.1
基于二维图像上两个物体的不同空间位置关系特征与描述语句中的词汇进行对齐,具体来说是要在描述语句中提取两个范畴的词汇,形状和方位词,再把这两个范畴的词与图像的底层特征进行对应。人工标注语料经过切分后会产生许多“分词碎片”,这是因为描述词的多样化,如何从“分词碎片”中将丰富的未登录方位描述词和形状描述词识别出来,是本文研究的重点。
1 数据准备
本文的语料库是由两部分组成:人工标注语料和图像语料。
图像语料是系统自动生成的1000幅图片,图片上有两个基本图形,用不同的灰度值进行区分,两个物体的位置不相交,有一定的方位关系。如图1所示:
图1 图像语料示例
标注语料是对每幅图片的人工标注,本文采用了开放的不限定维度的语言对图像进行了人工标注。对600幅图像的标注经过切分、词性标注并去掉表示句式的词后的结果如下所示:
0000/m 三角形/n 正/d 五边形/n 左边/f
2 基于构词模式自动识别未登录描述词的方法
2.1 标注预处理:先将描述语句进行一次切分,然后标注词性,因为本方法对于词性标注的准确性有很高的要求,所以这里选用了中科院研究的分词工具ICTCLAS进行切分,经检测此切分和词性标注工具准确率达到98.5%,然后将表示句式的词去掉,因为这些词只是为了表达句式特点。
2.2 模式初选:因为不同的人有不同描述习惯,为了使模式覆盖面更广泛,在600条语句中,从每100条中抽取10条,总结这60条描述语句中“分词碎片”的词性的构词模式,构成构词模式的初选集。
2.3 模式识别[1]:根据初选集中的模式去识别剩下语料中的“分词碎片”,在识别的同时,统计出每种模式可以识别出的词语数目。识别时,如果连续的“分词碎片”中满足初选集中的一种或几种模式,以满足的最长模式为最后结果。例如:左方/f偏/d上/f一点/m,既满足模式fd,又满足模式fdfm,选择fdfm即词语为左方偏上一点为结果。
2.4 模式筛选:去掉一些识别出词语比较少的模式,因为这些模式往往只是某个分词碎片组成的特例,不能称之为一个模式。
2.5 用筛选后的模式,对测试集中的“分词碎片”进行识别:筛选后的模式就是可用于对“分词碎片”进行识别的模式。
3 实验结果
实验中从60条语句中总结出的“分词碎片”的词性成词模式共18种如下所示:
"mq","fd","ff","fvf","df","fdfm","dn","dfdfm","fn","ffn","fdam","ffnn","nn","nfv","bnf","fda","vf","mnn"
实验准备的测试集为200条分词碎片语料,用这几种模式去识别这200条测试集中的语料,实验结果如表1所示:
表1 实验结果
构词模式 mq fd ff fvf df fdfm dn dfdfm
出现频次 31 39 40 0 25 9 116 2
构词模式 fn fdam ffnn nn fda vf mnn
出现频次 0 9 0 0 1 0 1
据统计,该方法识别出的词语的正确率为97.5%,召回率为94.7%。
4 结束语
本文介绍了一种基于构词模式的自动识别未登录描述词的方法,并提出把该方法用于特征-描述词的对齐中,极大地增强了对齐语料中的词语丰富性。
附录
计算所汉语词性标记集
Version 5.0
制订人:刘群 张华平 张浩
n 名词;t 时间词;s 处所词;f 方位词;v 动词;a 形容词;b 区别词;
z 状态词;r 代词;m 数词;q 量词;d 副词;p 介词;c 连词;u 助词;
e 叹词;y 语气词;o 拟声词;h 前缀;k 后缀;w 标点符号;
参考文献:
[1]Richard O.模式分类[M].北京:机械工业出版社,2005.
作者简介:王玉凡(1972-),女,河北人,硕士,讲师,研究方向:信息处理。
一、引 言
汉语是我国的语言,其中官方通用语言为普通话,学习汉语主要是通过老师上课教、学生课后根据书本上的汉语拼音学习的方式进行。这种方法对教师的依赖性过大,虽然教师通过普通话测试,但是仍然有一部分教师存在口音问题,同时这种学习方式对学生的普通话发音没有办法进行严格的评判。随着计算机多媒体技术的发展,可以使用计算机通过评测系统进行计算机辅助语言学习。而目前汉语普通话测试主要也是基于计算机辅助语言学习(computer assisted language learning ,简称call)[1]进行的。本文从这个角度出发,首先获取模型设计的基频数据,设计并实现k-gmm模型,并初步分析这一技术应用于计算机辅助语言学习中的价值。
二、基于k-gmm模型的
一种汉语声调识别技术
汉语是声调语言,其单音节的声调模式共有五种,分别为阴平、阳平、上声、去声和轻声,[2]本文主要针对前四种声调进行分析。汉语最重要的信息是通过声调的基频保持的,它是提高语音生动性的重要因素。因此声调识别在汉语识别中十分关键,必须选用准确有效的方式方法提取基频,并对其进行必要的处理。必要的处理手段主要有插值平滑处理、重采样处理以及归一化处理。[3]通过这些必要的处理后,再通过建立一个识别模型才能够实现声调的识别。识别模型的好坏在一定程度上决定了识别率的高低,因此本文为了实现非特定人声调识别而建立了k-gmm模型。
(一)基频提取算法原理
为了保证提取基频的准确性,同时又要满足算法的复杂度较低以及算法的计算量小的要求,可选择自相关算法提取基频,并对基频数据进行后处理,得到一个较好的基频数据输入模型。算法框图如图1所示。
假定随时间的变化语音信号的特性变化缓慢,因此可以将信号分割成一些短段(分帧)再加以处理,这些短段可以看作是来自一个持续声音片断,这个持续声音片段具有固定特性。算法中就是将语音信号看作是短时平稳过程,对其短段进行语音信号处理的。
图1 基频提取算法框图本文由收集整理
1. 语音信号的预处理
通过对语音的研究表明:[4]成年男性、成年女性基频范围分别在70~250hz、160~400hz,而儿童的基频范围最高可达500hz。因此选用60~900hz的带通滤波器对语音信号进行滤波,完成预处理,这样可以剔除一部分非语音音频的基频数据。
2. 自相关计算
使用信号{x(n)}的短时自相关函数计算,获取基频数据,如公式(1)所示。
rn(k)=x(m)·x(m+k)·hk(n-m) (1)
其中:hk(n-m)=w(n)·w(n-k)
rn(k)就是自相关计算所得的基频结果,它是信号在第n个样本附近截取的一段信号。
3. 插值平滑
通过自相关计算得到的基频,存在数据丢失的情况,这主要是因为一些浊音部分的基频为0,导致基频序列不连续。针对这一情况需要进行丢失数据的处理。通常可采用插值平滑的方式进行。这里采用基于拉格朗日(lagrange插值)插值的插值平滑处理,如公式(2)所示。
pn(x)=lk(x)yk=j ≠ 0 (2)
根据实际应用模型可知,每个汉字的基频曲线应该是平滑的,字与字之间的基频过渡也应该是平滑的。基于这种思想,结合普通话语音的特点,选取lagrange插值平滑处理中的值为3。使用lagrange插值法选取已知点时,选择四个点,断点前后各两个点,其中在断点前要分别选择一个最靠近的已知点和一个与该断点有一定距离的已知点。在断点后也以相同的方法选取已知点,注意选取距离一般不超过10。
采用自相关计算提取的基频,选取n值为3的lagrange插值进行平滑处理后,如图2所示。通过分析,可以看出平滑后的基频曲线效果较好。
4. 重采样处理
为了便于建立识别模型,必须保证每个字或词的特征数相同,因此需要对数据进行重采样处理。重采样的基本步骤如下:
(a)平滑处理前
(b)平滑处理后
图2 插值平滑处理前后对比
假设特征维数设定为m维,对应在[0,1]上的点间隔1/(m-1)。再假定在二维坐标系中取n个点,用于对应提取某个字的n个基频数据,二维坐标系中纵坐标为该点对应的基频数据值,横坐标为0到1,其间隔为1/(n-1)。其中m<n并且1 (m-1)>1/(n-1)。
(1)取原始数据的第一个点为重采样的第一个点。
(2)计算重采样的第二个点。根据重采样的第二个点x横坐标为1/(m-1),位于区间[1/(n-1),2/(n-1)],选择线性插值运算在其所在区间上进行插值运算,可得到其对应的重采样数值y,如公式(3)所示:
y=(f2-f1)(n-1)x+2f1-f2 (3)
这里假设点1/(n-1)对应的原始基频为f1,点2/(n-1)对应的原始基频为f2。
(3)依次选取不同的横坐标点x,可求出重采样的所有数据y。
5. 归一化处理
提取的基频数据经过以上处理后效果有一定的改善,但针对汉语声调自身的特点,为了选择一种较有效的识别模型,必须先分析说话人的声调分布情况。[5]由于每个人的发音特点和口音各不相同,相同字的基频曲线有很大差异,但是每个人的整体频域范围差异却不显著。因此,可以通过归一化处理让识别模型能够处理大部分人的语音,即将所有的基频数据处理到同一个数量区域内。基于此,采用归一化公式(4)计算:
=(f-fmin)/(fmax-fmin) (4)
式中fmax表示单个说话人基频上限的90%,fmin表示单个说话人基频下限的1.1倍。由于获取当前说话人的基频上下限很困难,因此fmax和fmin的值使用当前语音样本频率的上限和下限值来代替。
要注意的是经过插值平滑的基频数据需要取对数运算后才可以进行归一化。这主要是由于录音时可能出现发音抖动,使得某个频率值过大或过小,因此要剔除频率过高点或过低点。
(二)基于k- gmm的声调识别
1. k-gmm模型设计
对于特定人的识别,k-means聚类算法[6]能够得到较好的识别率。但在非特定人识别模型中,由于每个人的频域不同,此方法存在很大的缺陷。
高斯混合模型(gmm)是具有混合高斯密度函数的隐马尔科夫模型(hmm),高斯混合模型由多个高斯分布线性加成在一起构成其概率密度函数,用来描述特征矢量在概率空间的分布情况,更适用于非特定人的识别,基于此本本文由收集整理文提出了k-gmm模型。
以单字组为例,k-gmm模型识别的算法思想如下:
(1)对已知的声调训练样本按声调进行分类,单字组声调分为四类。将每一种声调的训练样本按照k-means聚类算法进行聚类,并且求出聚类后的每一类的每一维特征的均值uikj和?滓2ikj方差,以及这一类占整个这个声调的权重?棕ik,其中i=1,2,3,4;j=1,2…,m;k=1,2。k值采用遍历搜索法求出,这里取2。
(2)由(1)求出的均值和方差,按照gmm模型求出其对应的概率密度函数pikj,如公式(5)所示。
pikj(x:?滋ikj,?滓2ikj)=e (5)
(3)求出每种声调的每一类的特征矢量的概率密度函数。由于可以将特征矢量的每一维特征看作是独立的,因此其概率密度函数就是每一维的概率密度的乘积,如公式(6)所示。
pik=pikj (6)
(4)以(1)(2)(3)为基础,将测试样本xn带入到四类声调对应的所有模型中,求出其概率密度函数值pik。
(5)将每一类进行加权求和,通过公式(7)进行。然后求出基频数据所有模型的最大值max(pi),此最大值对应的值就为测试样本的声调。
pi=?棕ikpik (7)
注意,由于基频的数值进行了归一化处理,因此,求出的概率密度函数值会很小,为了便于处理,将其值取对数。
(三)实验结果分析
利用标准语音库863语料样本的单字组的训练和测试样本,训练样本为104组,测试样本为103组。采用上述的基频提取算法,以k- gmm模型作为识别模型进行实验。实验结果(基频特征维数为15)见表1。
从实验结果中可以看出该模型对声调的识别率还是较高的。同时利用该模型对不同的基频特征维数分别进行了实验,发现特征维数不能太小,也不能太多。特征维数太小不能体现基频的大部分信息,特征维数越多,信息体现得越全面。但是特征维数太多会加大运算量。实验表明,特征维数选择在10到30之间时,识别率没有明显变化。表1中的数据是基频特征维数为15时的实验结果。
三、计算机辅助语言学习中
对声调识别的应用研究
目前计算机辅助语言学习虽然经过了一段时间的发展,但是主要还是停留在课堂使用多媒体教学的层面上,对于激发学生学习兴趣、培养学生自主学习的能力等方面做得还不够。鉴于此,声调识别技术应用方向和价值主要体现在以下几方面。
(一)计算机辅助语言学习中对声调识别的应用方向
1. 计算机辅助语言学习语音评测系统
应用声调识别技术可以开发关于语音发音评测的评测系统。该技术的应用可以使得计算机识别人的语音变为可能,当然仅仅依靠声调识别技术是不能够完全识别语言的,但是这是识别语言非常重要的组成部分。通过识别的语音再进行相关评测技术的评测即可得到发音者的语音评测结果。通过语音评测系统可以使学习者自行进行发音评测。
2. 交互型计算机辅助语言学习应用软件
应用声调识别技术可以开发关于语音的相关交互型的学习软件。该类软件可以展示正确的语音、识别发音者的语音,可以由发音者的语音控制某些进程动作的执行,进行语音练习和学习。如一些语音小游戏,可通过语音控制游戏的进行。使用这些交互型的计算机辅助语言学习应用软件,使得学习者可以在一个交互的环境中自主地进行想要学习和练习的内容。
(二)计算机辅助语言学习中对声调识别的应用价值
1. 促进计算机辅助语言学习的新应用
目前计算机辅助语言学习主要依靠多媒体辅助教学的形式来完成,这一形式注重“教”而忽略了“学”,同时在很大程度上阻断了教师和学生的交流与联系。[7]这对汉语这一具有丰富信息量的语言学习是十分不利的,因此计算机辅助语言学了注重“教”也要注重“学”。在学生学习汉语的过程中,很大一部分时间是在课下进行的,而汉语言的发音是学习语言的最基本的要素之一,发音是否标准是衡量普通话好坏的一个重要标准。因此对于学习者要进行发音的评测,如何让评测发音在教师不在场的情况下进行是目前遇到的普遍问题。利用本文这种识别率较高的声调识别技术开发普通话评测系统即可解决这一问题。这一问题的解决可以促进计算机辅助语言学习的发展,给计算机辅助语言学习提供新的应用研究方向。
2. 促进、激发学生的学习兴趣,提高学生自主学习的能力
计算机辅助语言学习过程中,教师通过多媒体课件、视频、音频、电视录像等技术手段来激发学生的学习兴趣,但往往容易忽略和学生的互动性。[8]随着多媒体技术软硬件的发展,现在可以开发一些学习型的应用软件,利用这些软件可以和学生互动,弥补课堂互动性差的不足。使用高质量的声调识别技术可以开发针对语音学习的软件,使得学生可以和计算机互动,评测发音准确度。甚至通过开发一些互动语音小游戏,让学生在玩的过程中学习,来进一步激发学生的学习兴趣。通过这些方式可以避免学生单纯依赖教师上课进行学习,为学生课下自主学习提供了新的环境,有助于提高学生的自主学习能力。因此,这一语音声调识别技术有一定的实用价值。
关键词: 子空间识别 模态参数识别 随机子空间
中图分类号:P424文献标识码: A 文章编号:
引言
准确的结构模态参数识别对于结构响应分析、状态监测、结构控制等研究有着非常重要的意义。但是传统的模态参数识别要求同时测量输入和输出信号,这给大型工程结构的振动测试带来了不少困难,如难以施加有足够能量的激励或者激励昂贵、测试过程中影响结构的正常使用等。于是,研究者们提出了仅测量结构在正常使用时的环境激励下的响应信号的模态参数识别思路,称之为基于环境激励的模态参数识别或工作模态分析(OMA)。该类方法不但无需特意施加人工激励、测试过程中不影响结构使用,并且识别出的模态参数反映了结构的真实边界条件和工作时的动态特性,故受到广泛关注和研究。
基于环境激励的方法主要可分为频域类方法和时域类方法【1】【2】【3】。频域类方法主要有峰值拾取法、频率分解法等【4】。时域类的方法主要有:①Ibrahim提出的基于随机减量技术从白噪声激励下结构随机响应中提取自由响应进而识别模态参数的ITD法【5】【6】;②美国Sandia实验室James等提出的自然激励技术(NExT)【7】,作者首次证明了白噪声激励下测量通道间的互相关函数和脉冲响应函数具有相同数学表达式,从而以其代替脉冲响应,再结合传统的基于脉冲响应的识别方法完成环境激励下的模态参数识别;③随机子空间方法,该方法的主要贡献者如Akaike首先解决了状态空间模型的随机实现问题【8】, Overschee 和Moor于1993年提出了直接基于数据的随机子空间方法【9】。1999年比利时鲁汶大学土木系Peeters及Doeck提出基于参考点的随机子空间方法【10】。在这些方法中,随机子空间方法因无需迭代、计算量小,识别结果精确可靠而得到广泛关注。
在协方差驱动的参考点随机子空间方法中,通过将识别方法中全部测试通道间的相关函数计算减少为全部通道仅和参考通道间的相关计算,显著减少了该类方法的计算量。该方法在减少运算量的同时,是否会对模态参数识别的精度带来影响?本文将在阐述该方法的识别理论之后, 以一个数值算例探讨参考点随机子空间方法的识别效率,包括运算时间,结果的准确性,并对参考通道的选择提供参考意见。
1 协方差驱动的参考点随机子空间识别
在基于环境激励的模态参数识别中,激励本身未测量,假定其满足零均值平稳白噪声条件,则结构的离散随机状态方程组为:
(6)
假定含未知输入和噪声的随机项和的协方差矩阵满足关系:
(7)
其中为记号。
振动测试中,测量物理量通常为加速度信号,参考点随机子空间方法的识别程序是首先构造全部个测量通道加速度与个参考点通道间的相关函数的矩阵(非参考点协方差随机子空间方法则为全部通道间的相关函数矩阵):
(8)
其中:
(9)
为输出响应间相关函数矩阵在时滞值为的估计值,。对矩阵进行奇异值分解得:
(10)
由随机状态方程的性质可将矩阵表示为扩展观测矩阵和逆向随机控制矩阵的积,则得到扩展观测矩阵表达式为:
(11)
则离散系统矩阵可由扩展观测矩阵的移位结构关系得到:
(12)
其中为扩展观测矩阵的上行矩阵的虚逆, 为下行矩阵。矩阵可直接取扩展观测矩阵的上行得到。模态频率、阻尼及振型可通过对离散系统矩阵进行特征值分解后由下式得到:
(13)
值得注意的是:在方程(10)中,理论上系统真实阶次可以由不为零的奇异值数量决定,但是在实践应用中,普遍出现奇异值均不为零,甚至它们的值之间也不会出现显著差异。这时,根据虚拟模态(计算模态)将不会稳定出现的特点,可以假定系统阶次在一定范围内变化,在各阶次中稳定出现的总次数来判断其是否是真实的物理模态即稳定图方法。
2数值算例
应用Midas/civil软件建立一平面等截面简支梁,计算跨径32m,断面为GB-YB工字形,型号为I100x68x4.5/7.6,材料为Q235钢材,弹性模量206,有限元离散划分为16个平面梁单元,单元长度2.0m,如图1所示。在桥梁半跨内的第2至第9号节点竖向同时施加有限带宽白噪声动荷载模拟环境激励。根据响应结果,对照非参考点随机子空间方法研究参考点识别方法的识别精度,同时探讨参考点的选择方法。
图1:简支梁数值模型
2.1 生成白噪声激励信号
采用的目标时域白噪声激励力信号的峰值为1KN,采样频率为50Hz,持续时间为180秒。该信号采用Matlab程序首先由白噪声的已知功率谱密度函数推求频谱函数,再叠加随机相位谱后经傅里叶逆变换生成。有限带宽白噪声功率谱密度值指定在0.01Hz至100Hz区段为1.0,原始采样频率为400Hz,其它频率区间值为0,生成信号的功率谱密度分别如图2所示。将该信号经1/8倍重采样和峰值调整后便得到目标信号如图3。连续执行8次得到所需的8个节点动荷载历程。
图2:生成信号的功率谱密度
图3: 节点动荷载时程
网络出
>> 基于船舶自动识别系统的局部缩减航道元胞自动机模型 基于构词模式的未登录描述词自动识别的研究 基于分类技术的交通标志自动识别的研究与实现 基于改进的神经网络异常声音自动识别系统研究 基于自动识别技术的新疆特色林果产品供应链管理研究 基于RFID在车辆信息自动识别技术的研究与应用探索 基于数学形态学的地层特征自动识别方法研究 基于BP神经网络壁纸自动识别的研究 基于HSI颜色空间的小麦粉精度自动识别研究 基于自动识别的压力表 基于HOUGH变换的航空仪表自动识别 藏文不自由虚词的自动识别研究 车牌自动识别的算法研究与实现 车牌自动识别技术研究 网页体裁自动识别研究 藏文人名自动识别研究 ETC中基于RFID的双标签汽车牌照自动识别系统研究 浅谈自动识别技术的发展 中文比较句的自动识别 汉语介词短语的自动识别 常见问题解答 当前所在位置:l
基金项目:北京岩溶水资源勘查评价工程项目(BJYRS-ZT-01-02);水沙科学与水利水电工程国家重点实验室资助项目(2012-KY-05)
作者简介:姚晨晨(1988-),男,江苏海安人,工程师,主要从事抽水蓄能电站水能设计等方面的研究。E-mail:
摘要:基于物理机理的分布参数模型广泛用于评价和模拟地下水流和水力响应。传统的确定数值模型参数的试错法(人工方法),过多地依赖于建模者的经验和主观判断,并且是一个非常耗时的过程。引进一种带约束、非线性、全局收敛且无需求导的Condor优化算法,以理想的地下水模型为例,实现了模型参数自动识别的完整过程,并与广泛采用的遗传算法收敛效果进行对比。结果表明,相比于遗传算法,Condor算法受参数初值影响小,寻优效率提升显著。
关键词:参数估计;自动识别;Condor算法;分布参数模型
中图分类号:P641 文献标志码:A 文章编号:
1672-1683(2015)04-0733-04
Case study of parameter auto-calibration of distributed parameter model based on Condor algorithm
YAO Chen-chen1, WEI Jia-hua2
(1.PowerChina Huadong Engineering Corporation,Hangzhou 310014,China;
2.State Key Laboratory of Hydroscience and Engineering,Tsinghua University,Beijing 100084,China)
Abstract:Physically-based distributed parameter models have been widely used to evaluate and predict groundwater flow and hydraulic response.The traditional trial-and-error approach for calibrating the numerical model parameters depends on the experience and subjective assessment of the modeler and can be very time-consuming.In this paper,the Condor algorithm,a constrained,non-linear,and derivative-free optimizer,is introduced into parameter auto-calibration of a synthetic groundwater model.It achieves a complete process of parameter auto-calibration of the model.The convergence effects are compared with those using the genetic algorithm,which suggests that the Condor algorithm is less affected by the initial parameters and improves the optimizing efficiency significantly compared with genetic algorithm.
Key words:parameter estimation;auto-calibration;Condor algorithm;distributed parameter model
1 研究背景
参数识别是分布参数数值模型建模工作中至关重要的环节,参数识别效果直接关系到模拟预测结果的可靠性。参数识别是一项复杂、费时的过程,其表现出的非唯一性、不稳定性[1],加大了识别的难度。绝大部分的分布参数数值模型的参数识别,多采用试算法,即通过人工改变参数值,不断比对模拟值和实测值,直至拟合效果“满意”为止。这一过程由于缺乏收敛准则,主要依赖建模者的经验,具有较大的主观性[2]。为提高模型参数识别过程的工作效率,在参数自动识别或在自动识别基础上再进行对比论证,已成为必然趋势。一些常用的专业模型软件都开发了参数自动识别软件包,如PEST、UCODE、iTough2等。
参数自动识别,一般通过最小二乘或极大似然估计构造目标函数,借助优化算法,在参数解空间自动搜寻参数最优值。由于模拟模型计算时间较长,因此对优化算法效率的要求较高。参数识别寻优算法可以分为四类:一是基于函数梯度信息的寻优方法,如最速下降法、高斯-牛顿法、共轭梯度法[3]等,这类基于梯度的算法需要直接求解目标函数的导数信息,易陷入局部最优,较难应用到复杂的模型参数识别问题中。二是启发式全局搜索算法,如遗传算法、模拟退火、禁忌搜索、人工神经网络等,这类方法普适性较强,应用广,但对大规模问题而言,搜索效率不高,且难以保证所获得的解是全局最优。三是基于概论统计分析的参数识别,如最大似然法(maximum likelihood),这种方法建立在大量枚举计算样本统计基础之上,一般给定一个概率分布,假定其概率密度函数(probability density function,PDF)及分布参数,从这个分布中抽出一个具有n个值的采样,利用概率密度函数,计算出其概率,并能给出某一概率下的可能参数值,这种方法目前多与其它优化方法结合使用。四是本文重点关注的非求导的(derivative-free)优化算法,这类方法克服了直接求导带来的诸多问题,如Tolson和Shoemaker (2007)[4]提出了适合流域模型参数自动识别的动态维搜索算法(DDS),并通过实例分析了算法的应用效果。Powell提出COBYLA算法[5],通过线性插值逼近目标函数进行优化计算,随后Conn的DFO算法[6]、Powell的UOBYQA算法[7],分别用牛顿多项式插值和拉格朗日多项式插值拟合目标函数,提高了算法的收敛速度和精度。Frank在UOBYQA算法的基础上,加入对约束条件下求解的支持,并引入并行机制,进一步增强了算法的适用范围,发展出Condor算法[8]。Condor算法在计算流体动力学寻优问题上的成功运用,也为其它应用提供了参考。
Condor算法克服了最速下降法、高斯-牛顿法、共轭梯度法等算法对梯度的直接求解,通过拉格朗日多项式插值技术获取目标函数的梯度信息,在克服基于梯度算法对噪声灵敏缺点的同时,保持了基于梯度算法的高效率。本文介绍了Condor算法的原理及流程,并通过理想的地下水模型参数自动识别为例,分析其在高运算负荷、多维变量函数寻优中的表现。
2 Condor算法
Condor算法利用拉格朗日插值,在小区域内构造二次型逼近目标函数,利用信赖域方法求解二次型最优解以拟合目标函数最优解,通过不断迭代逐步达到最优。Condor算法充分利用了目标函数的导数信息,大大增加了寻优效率,同时插值技术的运用又避免了导数信息的直接求解。Condor算法的简要流程如下[8]。
(1)利用拉格朗日多项式插值技术在初始点xstart附近构造二次型多项式q0(s)。插值点集Y中的点(用以构造q(x))由初始给定数值ρstart分散开距离。令xk是当前迭代为止使目标函数值最优的点,ρ0=ρstar。在以下的算法中,通过集合Y在xk附近插值构造f(x)的近似式qk(s)。qk(s)=f(xk)+gtks+stHks,其中gk表示点xk处f(x)的梯度近似,Hk表示点xk处f(x)的海森矩阵近似。
(2)信赖域半径Δk=ρk。
(3)内部循环:在ρk精度下求解问题。
步骤1,①求解步长sk,满足mins ∈Rnqk(s) s.t.s2≤Δ;②如果s2ρk或者f(xk+1)
步骤2,检查qk(s)在信赖域内的有效性。若模型无效,则进一步提高二次型qk(s)的拟合质量。具体做法:找一个新点xnew满足xnew-xkρk跳转至步骤1,否则继续。
(4)当优化步长s变得很小时,减小ρk,以进一步提高精度。
(5)如果ρk=ρend,算法终止,否则k=k+1,返回至流程 (2)。
3 实例研究
3.1 参数自动识别框架
针对模拟问题进行建模,首次假定“标准参数”,代入正向模型中模拟运行产生模拟值作为“观测值”。将不同参数代入进行数值模拟,通过模拟值与“观测值”的误差平方和作为目标函数(即最小二乘法),借助合适的算法在参数约束空间内不断迭代求解,搜寻目标函数的最优值,从而实现分布参数模型的参数自动识别。参数自动识别框架见图1。
3.2 正向模型建立
假定一个非均质各向同性的理想承压含水层进行数值实验。模拟的区域为规则长方体,三维尺寸5 000 m×5 000 m×50 m。源汇项除区域中心的两口抽水井(坐标分别为[2 500,1 500],[2 500,3 500])外,降雨、蒸发等均忽略不计,抽水井以天为单位,变流量抽水,假定抽水过程见表1。东西侧边界条件设定为定水头,分别为40 m、45 m,南北侧、顶板、底板为不透水层。模拟区域内,除了渗透率、孔隙度不考虑其他参数的影响,根据渗透率、孔隙度的变化,将区域概化为三块。并在三个子区域内设观测井(共13个、位置见图2)。
其中,K为渗透系数,(xj,yj)为抽、注水井的坐标,V为抽、注水井数量,Qj为抽、注水流量,δ为δ函数(抽水为正,注水为负),Ss为贮水率,与孔隙率的关系Ss=γ(a+φβ) (γ为水的容重,a为土的体积压缩系数,β为水的体积压缩系数,φ为孔隙度),水头H1=40 m,H2=45 m,a=5 000 m。
利用有限差分法对渗透区域进行离散,单元网格大小为100 m×100 m×50 m,即,整个渗透区域分成50×50×1个网格。借助数值模拟软件HST3D程序正向模拟,选择0.1 d为步长,模拟10 d内渗透区域的水压力场的情况。单次模型正向运行时间5 s。
该区域内的三维非稳定流定解问题表述如式(1):
3.3 遗传算法识别成果
本例中的遗传算法采用实数编码方式(RAGA),并对每代最优个体进行保留。算法相关参数:交叉因子0.85,变异因子0.05,初始种群数取100,迭代次数取500,识别结果见表3。
3.4 Condor算法识别成果
设计方案1-方案3分别从不同初始值出发,方案4*在目标函数中人为添加了[-100,100]区间内的随机均匀噪声(考虑到实际观测中存在误差),分别进行寻优迭代,结果见表4。算法相关参数:模型初始步长0.1,终止步长1e-6。
4 算法讨论
4.1 Condor算法
对比方案1-方案3,本例中不同参数初始值对Condor算法寻优的影响并不明显,相应的目标函数在迭代300次左右开始收敛。从识别效果上来看(表2),6个参数的自动识别结果相对误差均在1%以内,多数在0.5%以下,参数自动识别效果理想。同时,算法寻优速度快,整套参数自动识别的时间在15 min以内。
对比方案1-方案3、方案4*,由于在方案4*的目标函数中加入了均匀随机误差,参数识别值的相对误差增大,部分参数(如k3、φ3)达到5%,最优目标函数值也由方案1的101量级提高到方案4*的103量级,迭代次数也略有增加。但从最终识别的结果可以看出,人为随机误差对Condor算
4.2 遗传算法与Condor算法对比
对比遗传算法及Condor算法的前3个方案(表5),可以看出,Condor算法克服了遗传算法效率方面的缺陷,参数自动识别时间大为减少(遗传算法72 h-迭代大约50 000次未收敛,Condor算法15 min-迭代大约370次收敛),同时大幅提高了参数识别的精度(遗传算法中10%的参数相对误差提高至Condor算法中0.5%的参数相对误差,目标函数值从103量级减小到101量级)。就本例来看,Condor算法用于参数自动识别的效果要优于遗传很多。
5 模型不确定性分析
5.1 灵敏度分析
以Condor算法自动识别的参数值做模型不确定性分析,灵敏度计算采用如下标准化形式[9]:
xk=Sak/ak≈S(ak+Δak)-S(ak)Δak/ak (2)
式中,ΔS=S(ak+Δak)-S(ak)为由于参数变化引起的目标函数从基准例子S(ak)到新例子S(ak+Δak)的变化量。选取观测与模拟水头残差均方根(RMS)作为S进行计算,并给予每个参数5%的扰动。
从图3可以看出,分区1的水头值对参数k1较为敏感,分区2对参数k1、φ2敏感,分区3的水头值对6个参数的变化都比较敏感,水平较统一。
5.2 一阶误差分析
Var[y]=∑ni=1Var[xi]yxi2X0(3)
假定Condor算法识别出的6个参数服从对数均匀分布,给定对数扰动范围为5%。
从图4可以看出,同一分区对称井位受参数误差影响几乎水平相当,分区2及靠近分区2的井位不确定最大,尤以渗透区域中心的井位最明显。
6 结论
本文采用一种带约束、非线性、全局收敛且无需求导的Condor优化算法,并以理想的地下水模型为例,介绍了模型参数的自动识别方法,并与广泛采用的遗传算法收敛效果进行对比。从识别的过程及结果可以形成如下结论:利用
Condor算法优化识别分布参数的地下水流模型参数,优化迭代过程稳定,参数自动识别效果好,初值对算法影响不明显,同时对人为添加到目标函数中的噪声表现稳定;Condor算法采用插值技术构造二次型,可充分利用目标函数信息,与遗传算法相比,寻优效率大为提高(本例中提升300倍),参数识别结果精度高。
为了便于验证,本例采用了一个理想的含水层算例,今后将结合实际案例,利用Condor算法可并行性的优点,可将其推广应用到复杂、非凸、高运算负荷的参数识别问题中。
参考文献(References):
[1] Zheng C,Wang P.Parameter structure identification using tabu search and simulated annealing[J].Advances in Water Resources,1996,19(4):215-224.
[2] 薛禹群,谢春红.地下水数值模拟[M].北京:科学出版社,2007.(XUE Yu-qun,XIE Chun-hong.Numerical Simulation for Groundwater[M].Peking:Science Press,2007.(in Chinese))
[3] Willis R,Yeh W W G.Groundwater systems planning and management[M].NJ:Prentice Hall Inc.,1987.
[4] Tolson,B.A.,and C.A.Shoemaker.Dynamically dimensioned search algorithm for computationally efficient watershed model calibration,Water Resources Research,2007,43(1).
[5] Powell M J D.A direct search optimization method that models the objective and constraint functions by linar interpolation[M].Oaxaca,Mexico:Kluwer Academic Publishers,1994.
[6] Conn A,Scheinberg K,Toint P.Recent progress in unconstrained nonlinear optimization without derivatives[J].Mathematical Programming,1997,79(1):397-414.
[7] Powell M J D.UOBYQA:unconstrained optimization by quadratic approximation[J].Mathematical Programming,2002,92(3):555-582.