卷积神经网络的一般步骤(精选5篇)

前言：想要写出一篇令人眼前一亮的文章吗？我们特意为您整理了5篇卷积神经网络的一般步骤范文，相信会为您的写作带来帮助，发现更多的写作思路和灵感。

卷积神经网络的一般步骤范文第1篇

关键词：

手势识别；位运算；卷积神经网络；复杂环境；肤色似然

中图分类号： TP391.413 文献标志码：A

0引言

现行的手势识别方法的主要步骤是提取精确的手势区域，然后作形状或者轮廓识别。提取手势区域的方法有依赖于测距设备的方法，比如Kinect[1-2]、双目设备[3]，也有依赖于单目视觉的方法[4]。前者的主要原理是人机交互中手的位置距离传感器应该在一定的区间内，之后进行距离阈值分割。而基于视觉的方法主要是确定合理的肤色阈值，进行肤色分割和去噪，确定手势区域或者轮廓。

这些方法虽然依赖的特征不同，但是在整体处理步骤上比较相似，都需要首先对手势区域进行精确的分割。方法面临的挑战主要集中在复杂环境下的手势分割。如果希望算法在距离、光照可变的环境下表现出良好的鲁棒性，一般会将很多非手势的区域也识别为手势，这将增加手势分割的难度，在复杂背景下，这一问题会更加明显。在背景环境复杂时如果想降低手势分割的难度，一般需要对输入的图像特征进行更严格的提取，这同时也降低了模型的鲁棒性，在光照、距离等条件变化时，会出现丢失手势的问题。

两类问题相互制约，针对这一情况，研究者们把精力主要放在如何更加精准地提取特征上面。用作手势分割的特征主要集中在肤色[4]和距离[1，3]，有的学者采取了将轮廓信息结合先验形状来进行更加准确的分割方式来处理这一问题[5]，此类方法被广泛地用于边缘提取领域，在针对小规模噪声区域以及手势类别较少的情况时能获取不错的效果。主要问题是对于多个先验形状的表达没有特别理想的方案，在形状增多之后，形状项的作用明显下降，这与形状之间本身的冲突有关。更重要的一点是图像分割方法一般耗时都在数秒甚至数十秒，时间复杂度上无法满足手势识别的需要。因为手势分割的运用场景多为动态场景，所以运动目标检测的方法也经常用来辅助手势分割。

现行手势分割方法中最常用的是按照提取肤色特征、二值化、形态学滤波、运动目标特征或者距离特征协助检测这个过程处理[3-4]。有时还需要做人脸检测，排除人脸区域的干扰。融合了多种特征的方法在光照变化和背景拥有类似肤色的物体时仍然会出现不能有效分割的情形。

在手势识别方面，Dardas等[6]提出了一种基于特征包的手势识别方法，在识别率和计算效率上都取得了较好的结果。对于良好的手势轮廓，Belongie等[7]提出的形状上下文能够得到高准确率和对非刚性畸变鲁棒的结果。矩特征，指尖等手势的几何特征[1]也经常被用作为手势识别的特征。卷积神经网络能够自动获取特征，在处理静态图片时表现出了非常高的准确率，同时对噪声以及各种形变鲁棒。

本文提出一种新的方法来解决手势识别中鲁棒性和算法复杂性之间的矛盾。该方法第1步使用二进制运算实现的支持向量机（Support Vector Machine， SVM）分类器并用位运算代替滑动窗口，快速提取出多个可能的备选区域。第2步使用卷积神经网络来完成手势的再判定与识别工作。文中算法的实现方式非常关键，直接关系模型的运算效率。第1步中使用的分类器为线性SVM模型，需要在支持64位整型机器的环境下使用二进制运算的方式实现，在执行效率上相对于基于滑动窗口的算法有着100倍左右的提升[8]。第2步使用的分类器为卷积神经网络，在实现上使用了统一计算设备架构（Compute Unified Device Architecture， CUDA）进行卷积运算的加速，能获得10倍左右的加速比[9]。

1手势区域提取

本文手势区域提取的方法不要求精确提取手势轮廓或者锁定备选框。该方法核心思想是用最短的时间排除掉绝大部分的搜索区域，剩下无法判断的区域结合其他方法进行处理。

方法本身并不依赖于特定特征，所有能够用来排除大量备选区域的特征均可以使用，比如通过测距设备获取的距离似然特征，使用视觉设备获取的肤色似然特征。因为肤色似然特征对于硬件的要求更低，本文选择肤色似然特征进行实验。

1.1获取肤色特征

本文使用椭圆模型提取肤色似然区域[10-11]。首先将肤色变换到YCbCr空间，椭圆肤色模型认为肤色在Cr和Cb分量组成的空间里的分布集中在一个椭圆区域内。该椭圆中心点坐标为（155.6，103），长短轴比例为1∶1.6，旋转角度为43°。式（1）描述了Cr和Cb组成的空间中的像素点距离椭圆中心的距离，也可以理解成是肤色的概率。该值恒大于0，最大值为255，标准差系数为σ2。可以通过调整标准差系数σ2来控制肤色判断的严格程度，不同σ2下的分割效果如图1所示。不同的标准差系数对于肤色区域的判断影响十分明显。当σ2较小时提取区域判断为肤色的区域很小，此时真实的手势区域可能被误检成非手势区域；当σ2增大时，肤色似然图中判断为肤色的区域会一直增加，此时肤色似然图中被误检为肤色的区域也会增加。

光照变化和肤色的多样性会影响肤色似然特征的计算。针对光照变化以及肤色变化的情况。有以下方法可以改善：

方法1使用对光照鲁棒的特征，比如距离似然特征。

方法2使用较大的标准差系数σ2，后面提取区域的过程中使用较多的备选框以提高召回率。

方法3使用迭代的方法调整椭圆模型的中心坐标和标准差系数，方法3一般用于光照连续变化场景，比如视频流的处理。

1.2肤色似然特征与手势区域检测

获取肤色似然图之后，下一步需要计算似然图中的手势区域。手势区域和非手势区域在8×8肤色似然图下有着明显的差别，如图2所示。这一步的思路是使用滑动窗口的方法，对肤色似然图进行遍历。因为最终需要处理是在遍历的过程中将窗口中的肤色似然图像作为手势区域分类器的输入，得到一个“窗口值”，用来确定是否为备选窗口。

考虑到手势识别应用场景多为人机交互，手势的长宽比固定，不会被人为拉伸，所以选用“正方形”滑动窗口；并且手势区域在整幅图像中所占比例会有所变化但变化幅度不大，所以不用设定太多不同尺度的滑动窗口。在此处设定4个不同尺度的手势区域48×48、64×64、80×80、96×96用以检测不同大小的手势。

为了保证滑动窗口的大小始终为8×8，将肤色似然图调整为不同的尺度，以尺度为360×240的肤色似然图为例，当手势区域大小由48×48调整为8×8时，肤色似然图的长宽也对应变化原图的1/6，变为60×40。大小为的64×64、80×80、96×96的手势区域所对应的调整后的肤色似然图尺度分别为45×30、36×24、30×20，如图2（d）所示。

在分类器的选择上选用的是线性SVM分类器[12]。实验正样例选取的均为人工标记的手势区域的肤色似然图，在选取正样例的过程中可以先使用少量样本训练一个线性SVM分类器，然后使用该分类器进行样本初筛，之后再人工调整。负样例是在正样例以外的区域中随机选取。正负样本均需要进行归一化处理，处理成为8×8的区域。“窗口值”表示SVM系数矩阵和8×8的内积。“窗口值”的计算过程如式（2）所示：

s=〈w，x〉；w∈R8×8，x∈{0，1，…，255}8×8（2）

其中：w为权值矩阵；x为肤色似然图的像素值，如图2（c）所示；s为滑动窗口的“窗口值”。

1.3BISL二进制肤色似然特征

为了加速滑动窗口的计算，本文借鉴了文献[8]中一般物体识别时用到的方法，使用64位整型表示8×8的二进制矩阵，并且使用一些列的位运算操作来实现加速[13-14]。二进制肤色似然特征（Binary Skin LikeHood， BISL）特征，是将肤色似然特征使用多个64位整型表示之后形成的特征。

1.3.1近似参数矩阵w

线性模型矩阵w∈R8×8可以使用文献[13]中的算法1对其进行近似可得w≈∑Nwj=1βjaj。其中：Nw代表基向量的个数；aj∈{-1，1}8×8代表基向量； βj∈R代表相应基向量的系数。

算法1使用二进制方法近似w。

程序前

输入：w，Nw。

输出：{βj}Nwj=1，{aj}Nwj=1。

初始化残差：ε=w

for j=1 to Nw do

aj=sign（ε）

βj=〈aj，ε〉/aj2（将残差ε映射到aj上）

ε=ε-βjaj（更新残差）

end for

程序后

1.3.2处理输入矩阵x

本文截取x的高Nx位近似x（如图3（a）），x可以由BISL特征表示成如下形式：

x=∑Nxk=128-kbk（5）

其中：x∈{0，1，…，255}8×8，bk∈{0，1}8×8。

算法2对区域获取BISL特征。

参数含义：bx，y∈{0，1}8×8，rx，y∈{0，1}8，bx，y∈{0，1}。

程序前

输入：肤色似然图的二进制值bW×H。

输出：BISL特征组成的矩阵bW×H。

初始值：bW×H=0，rW×H=0

for each position（x，y） in scanline order do

rx，y=（rx-1，y

bx，y=（bx，y-1

end for

程序后

通常来说，获取8×8的BISL特征需要遍历64个位置。Cheng等[8]巧妙地利用了64位整型的特点，在算法2中使用了“按位或”和“移位”操作避免了循环。首先BISL特征bx，y和它的最后一行rx，y分别使用一个INT64变量和一个byte变量存储。然后相邻的BISL特征有重复的部分，可以通过左移8位操作保留重复的部分并给不同的部分腾出空间，将腾出的这8位的空间与新的byte变量进行“按位与”，就获取了新的BISL特征。相邻的byte变量的获取过程与之类似。

综合式（4）和（5）可以得到由BISL特征和分类器参数计算出窗口值：

s≈∑Nwj=1βj∑Nxk=1Cj，k（6）

其中Cj，k=28-k（2〈a+j，bk，l〉-bk，l）。

将窗口值topk的窗口作为候选窗口，进行进一步的识别。k的取值由实验环境确定，k越大，手势检测模型召回率越高，进一步识别的时间复杂度也会增加。

2使用卷积神经网络进行手势识别

本章所提输入是手势检测部分所得到的窗口值排名前k的候选窗口，这些窗口区域都是在上一步被判定为极有可能为手势的区域，所以本章中需要使用更为复杂的特征和更强的分类模型来处理这个问题。卷积神经网络和一般的神经网络相比，具有权值共享、局部感知等特点[15-16]，充分地利用了输入值的空间关系信息，并且容易使用硬件加速[9]。综合考虑模型的分类能力、鲁棒性以及识别效率等因素，本文使用卷积神经网络进行手势识别。

2.1样本、特征以及网络结构

卷积神经网络的训练样本是根据手势检测步骤中得到的窗口值topk 8×8窗口计算出来的。在确定窗口值topk 8×8窗口时，记录下这k个窗口在对应的肤色似然图中的坐标。根据这个坐标计算出原图像所对应的窗口坐标。这个过程可以看作是根据图2（c）中的8×8窗口位置来获取图2（a）中对应尺度的窗口图像位置，进而获得窗口图像。在获取窗口图像后，本文将备选窗口图像大小调整为29×29，然后计算它的肤色似然图，得到29×29的肤色似然图作为卷积神经网络的输入。卷积神经网络的特征选择可以有很多，比如窗口的灰度图、梯度特征、局部二进制特征。选用29×29的肤色似然图的原因是肤色似然图在肤色检测的过程中已经计算过一遍，不需要再重复计算。训练样本一共分为10类，6个备选手势类，4个错误类。这里设计4个错误类的原因是因为在手势区域提取的过程中，被错分成手势区域的候选框是有着明显的特点的。主要的几类情况是识别到手势边缘，识别到手势中心，识别到非手势区域，可以参考图2（b）的情形。在网络设计的时候需要重点关注这些错误的情形，实验发现，将所有的错误情形视为1类的模型识别率要低于将错误情形分成4类的模型。将错误情形分为4类的卷积神经网络一共有10个输出节点，其中6个代表6种不同的手势，另外4个代表4类典型的错误。需要注意的是，在计算模型准确率的时候并不将4类错误加以区分。假定4类错误分别为错误1、错误2、错误3、错误4，将错误1识别成了错误2，仍然认为模型判断正确。

为了使样本具有平移和小幅度旋转的鲁棒性，对卷积神经网络的训练样本进行了一些平移和旋转上的扩展。考虑到手势与手写字符的区别，本文并没有进行弹性形变扩展。整个卷积网络的结构如图4所示。

本文参照文献[15]中提到的方法来设计卷积神经网络，网络包含两个卷积层：第1层用来提取一些类似于边缘、角点、交线的底层图像特征；第2个卷积层以这些特征为基础生成更加复杂的特征。两个下采样层均按照2×2的因子进行最大池化，卷积核的大小定为5×5，第1个卷积层有5个卷积核，第2个卷积层有10个卷积核。光栅化之后采用两层全相连多层感知机结构，隐层单元数量设定为100个，最后针对多分类问题，使用softmax设置10个输出节点。

2.2卷积神经网络的计算过程

本文使用的卷积神经网络主要参照文献[17]中提到的算法实现。下面主要针对卷积层和下采样层的正向计算和反向传播计算进行讨论。

2.2.1正向计算

2.2.2反向传播

3实验结果分析

实验平台为Intel Core i74702MQ 2.2GHz， 4GB RAM， NVIDIA GeForce GTX 760M。CPU支持POPCNT命令，显卡支持CUDA平台，操作系统为Windows 8 Pro 64位。

3.1手势检测部分

手势检测部分所采用的数据集是Sebastien Marcel Static Hand Posture Database数据集，数据集包含10个人的6种手势（a，b，c，point，five，v）（A，B，C，Point（P），Five（F），V），总共接近5000个样本（如图5）。

实验对简单环境和复杂环境分别取100张测试图片进行测试（如图6）。在实验中发现，在简单环境下，直接获取“窗口值”最大的窗口作为备选区域即可。在光照变化和背景复杂的情况下，“窗口值”大小前4的窗口已经可以覆盖所有的实际手势区域，即达到100%的召回率（如表1）。

实验对比了基于滑动窗口方法实现手势检测、多模板匹配外加人脸排除以及本文的手势检测方法的运算速度。在3种不同尺寸的样本中分别取1000张测试图片进行测试，结果如表2所示。

3.2手势识别部分

手势识别部分的样本来源于手势检测部分的结果。数据一共分为10类，除了6个手势类之外，还设定4个错误类。4类错误分别命名为E1、E2、E3、E4。其中：E1代表识别到手势中心；E2代表识别到手势边缘；E3代表识别到非手势干扰区；E4代表除E3之外的弱干扰区，如图7所示。

因为10类的训练样本数量有一定的差异。其中最多的手势Point有1395个样本，最少的V有435个样本。错误类样本中总量为1216个，其中E1 178个，E2 81个，E3 943，E4 14个，这个具体数量与手势检测所设定的备选窗口数量有关以及选择的输入图片有关，可以调整，本文实验中备选窗口数量设为4，输入图片中背景复杂的一共有473张。在样本不平衡的情况下所训练出卷积神经网络模型测试准确率为93%左右。对样本进行抽样和扩展，扩展方法如下。

1）对于6个手势类，在每个类的训练集中随机抽取350张样本，对抽取的图片在随机方向上进行1到2个像素的平移得到另外350个样本，每一类总共会得到700个样本。

2）对于错误类E1，首先对训练集进行4次随机方向上1到2个像素的平移，每一次都会得到一个新的训练样本，最后进行随机抽样，每类选择700个样本。

3）对于错误类E2，首先对训练集进行10次随机方向上1到2个像素的平移，每一次都会得到一个新的训练样本，最后进行随机抽样，每类选择700个样本。

4）对于错误类E3，直接进行随机抽样，每类选择700个样本。

5）对于错误类E4，将样本复制50次，获取700个样本。

扩展后的训练集有6000张训练样本，测试集有1000个样本。手势识别的结果如表3所示，在手势识别部分修正后的准确率为96.1%，空格部分代表0，4个错误类准确率计算方式在2.1节有说明。

图8对比了本文算法和其他算法的性能，当训练样本大于100时，本文算法和特征包算法的准确率相近。算法的运行效率明显高于特征包（Bag of Features， BoF）算法，如表4所示，平均识别时间表示的是手势识别算法对单一“窗口”图像的计算时间，整体计算时间包含了手势检测和手势识别两个部分以及一些预处理环节，基于特征包的两类算法对应的手势检测方法采用的是对模板匹配和人脸排除，本文的算法是采用位运算支持向量机和CUDA卷积神经网络。CUDA卷积神经网络处理29×29大小的图片用时约为0.001s。手势识别过程中，因为分割算法求得的是4个备选窗口，所以识别过程中需要识别4个窗口，对一幅输入图像而言手势检测和识别总用时约为0.013s。

实验结果表明，本文提出的方法能够在光照变化、背景复杂的情况下依然保持高准确率和良好的运算效率。

4结语

本文提出了一种新型的手势识别方法，与传统的手势识别方法相比，本文方法利用位运算代替滑动窗口，在数微秒的时间内将备选窗口数量由千万级别缩减到个位数。获取备选区域之后使用基于CUDA的卷积神经网络对备选区域进行细分和识别。在实际的计算过程中可以通过硬件优化得到100至1000倍的加速比。本文方法仅仅通过肤色似然特征就在Marcel数据集上得到了96%左右的准确率。本文提出的方法主要解决了鲁棒性和计算复杂度的矛盾，并且方法所使用的特征可以使用其他的特征替换，这使得模型具有良好的可扩展性。

本文方法的局限性主要体现在对特征提取的召回率有要求，如果完全没办法提取到特征，本文的方法会失效。另外，卷积神经网络的训练耗时长，网络设计依赖经验，在更加复杂的分类上，卷积神经网络网络的设计也会更加困难。

参考文献：

[1]

谈家谱，徐文胜.基于Kinect的指尖检测与手势识别方法[J].计算机应用，2015，35（6）：1795-1800.（TAN J P， XU W S. Fingertip detection and gesture recognition method based on Kinect [J]. Journal of Computer Applications， 2015， 35（6）： 1795-1800.）

[2]

NEWCOMBE R A， IZADI S， HILLIGES O， et al. KinectFusion： realtime dense surface mapping and tracking [C]// Proceedings of the 2011 IEEE International Symposium on Mixed and Augmented Reality. Washington， DC： IEEE Computer Society， 2011： 127-136.

[3]

谭同德，郭志敏.基于双目视觉的人手定位与手势识别系统研究[J].计算机工程与设计，2012，33（1）：259-264.（TAN T D， GUO Z M. Research on location and gesture recognition of hand based on binocular stereovision [J]. Computer Engineering and Design， 2012 33（1）： 259-264.）

[4]

WACHS J P， KLSCH M， STERN H， et al. Visionbased handgesture applications [J] Communications of the ACM， 2011， 54（2）： 60-70.

[5]

SAMUEL D， RATHI Y， A. TANNENBAUM A. A framework for image segmentation using shape models and kernel space shape priors [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence， 2008， 30（8）： 1385-1399.

[6]

DARDAS N H， GEORGANAS N D. Realtime hand gesture detection and recognition using bagoffeatures and support vector machine techniques [J]. IEEE Transactions on Instrumentation & Measurement， 2011， 60（11）： 3592-3607.

[7]

BELONGIE S， MALIK J， PUZICHA J. Shape matching and object recognition using shape contexts [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence， 2002， 24（4）： 509-522.

[8]

CHENG M M， ZHANG Z M， LIN W Y. BING： binarized normed gradients for objectness estimation at 300fps [C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Washington， DC： IEEE Computer Society， 2014： 3286-3293.

[9]

STRIGL， KOFLER K， PODLIPNIG S. Performance and scalability of GPUbased convolutional neural networks [C]// Proceedings of the 2010 18th Euromicro Conference on Parallel， Distributed and Networkbased Processing. Piscataway， NJ： IEEE， 2010： 317-324.

[10]

BOJIC N， PANG K. Adaptive skin segmentation for head and shoulder video sequences [C]// Visual Communications and Image Processing 2000. Bellingham， WA： SPIE， 2000： 704-711.

[11]

KOVAC J， PEER P， SOLINA F. Human skin color clustering for face detection [C]// IEEE Region 8 EUROCON 2003. Computer as a Tool. Piscataway， NJ： IEEE， 2003， 2： 144-148.

[12]

FAN R E， CHANG K W， HSIEH C J， et al. Liblinear： a library for large linear classification [J]. Journal of Machine Learning Research， 2008， 9（12）： 1871-1874.

[13]

HARE S， SAFFARI A， TORR P H S. Efficient online structured output learning for keypointbased object tracking [C]// Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Washington， DC： IEEE Computer Society， 2012： 1894-1901.

[14]

ZHENG S， STURGESS P， TORR P H S. Approximate structured output learning for constrained local models with application to realtime facial feature detection and tracking on lowpower devices [C]// Proceedings of the 2013 10th IEEE International Conference and Workshops on Automatic Face and Gesture Recognition. Piscataway， NJ： IEEE， 2013： 1-8.

[15]

SIMARD P Y， STEINKRAUS D， PLATT J C. Best practices for convolutional neural networks applied to visual document analysis [C]// Proceedings of the Seventh International Conference on Document Analysis and Recognition. Washington， DC： IEEE Computer Society， 2003： 958-963.

[16]

LECUN Y， BOSER B， DENKER J S， et al. Handwritten digit recognition with a backpropagation network [M]// Advances in Neural Information Processing Systems 2. San Francisco： Morgan Kaufmann， 1990： 396-404.

卷积神经网络的一般步骤范文第2篇

关键字：车牌；识别；二值化

1、研究概况

车牌识别技术是智能化移动式稽查系统中的关键技术，其是指不依赖于电子信号，利用光学特性，基于光学字符识别（简称OCR，即Optical Character Recognition）技术对车辆牌照进行识别，从而辨识车辆唯一身份的一种技术。

从OCR技术的含义来说，车牌识别技术的基本工作流程如下图所示：

车牌识别技术的基本工作流程

其中：图像采集指从实际环境中或者交通车辆行驶视频中获取图像，可以通过摄像设备直接获取，也可以用图像采集卡采集。车牌识别技术均基于对图像进行分析识别，这一步是为了提供识别的对象。识别核心为整个系统的工作核心。通过OCR字符识别技术，获得车辆牌照识别结果（包括车牌颜色、牌照位置等重要信息）。

车牌识别技术是集光学、电子、软件、人工智能等多领域的一项实用技术，由于其完全采用光学图像，避免了以往采取微波、雷达等电子设备进行交通监控造成的电子污染，同时使用一些反监控电子装置，增加了ITS系统对交通监控领域的有效性和威慑力。

2、关键技术

2.1、车辆牌照的定位

首先，由于图像的采集色系为RGB色系，故需要将RGB色系的图像转化到HSV色系中。在HSV色系中，利用H、S色系分量可以确定蓝色、黄色牌照区域；利用S、V色系分量可以确定白色牌照区域；利用V色系分量可以确定黑色牌照区域。之后，通过将其进行图像灰度化处理，利用灰度化的形态学开、闭运算消除干扰、降低噪声后，遍历迭代出连通区域来确定牌照的位置。

车辆牌照定位流程图

1）确定各种车辆颜色在HSV色系空间中的阈值

车辆牌照的颜色分为黑、白、蓝、黄四种颜色，这样我们和容易将四种颜色的标准RGB色系转化到HSV色系中来，但考虑到光照度以及牌照的颜色深浅度并不相同，所以可以通过均值、方差的方法来进行多个采样本H、S、V各个分量的值。经过试验证明，采样本的H、S、V分量值的阈值属于正态分布，故可以通过正态分布来确定阈值区间。

2）通过引入图像灰度化原理，将图像进行灰度化处理

在HSV色系中，通过上面确定的阈值区间将图像进行处理，并通过灰度化原理对图像进行灰度化。

步骤如下：

①若图像像素中H分量是在黄色阈值区间内，且像素S分量也属于黄色区间，则将该像素灰度值设定为一个试验标准值1。

②若图像像素中H分量是在蓝色阈值区间内，且像素S分量也属于蓝色区间，则将该像素灰度值设定为一个试验标准值2。

③若图像像素中V分量是在白色阈值区间内，且像素S分量也属于白区间，则将该像素灰度值设定为一个试验标准值3。

④若图像像素中V分量是在黑色阈值区间内，则将该像素灰度值设定为一个试验标准值4。

⑤若图像像素不属于上述的任何阈值空间，则将该像素灰度值设定为一个试验标准值5。

3）图像消噪处理

图像在经过灰度化处理之后，会有很多的噪声干扰。研究证明，通过颜色的滤波方法虽然可以消除噪声，但是这种方法很容易造成裂纹、很多个不连通区域，这样通过滤波的方式便不可行。通过采用图像灰度化的开运算以及确定合适的结构元素将可以大大去除噪声，并可以有效地保证图像质量。

4）牌照候选区域的选择

通过利用迭代法选择搜索出符合牌照特性的矩形区域，之后利用真实牌照的长、宽比例作为验证标准，搜索出候选区域。

根据牌照图像为矩形的特点，对连通区域的标注上、下、左、右四个标注。

5）在候选区域中找到真正的牌照位置

对候选区域在水平方向上进行二值化处理，计算水平方向跳跃次数以及字符所包含像素与整个候选区域像素的比例来进行验证，符合标准的，便将牌照图像切割下来，作为牌照的定位结果。

2.2、牌照的提取

由于车辆牌照的位置、光度都有很大的差异，为了能够有效地提取车辆牌照，需利用明暗相间纹理以及sobel算子确定牌照的边界，具体流程图如下：

车辆牌照提取流程图

上图中显示了具体一幅车辆图片的牌照提取过程。其中用到了大量的数字图像处理算法，包括图像的彩色图到灰度图变换，灰度拉伸，均衡，边缘卷积算子，纹理特征提取，去噪，滤波等。

3、牌照图像的预处理（即牌照图像的二值化）

牌照图像的二值化是处理与识别图像关键的一个步骤，通过引入Marr算子成功解决了图像二值化中阀值的选取问题。

1）本系统引入Marr算子

由于牌照图片可以看作由前景字符和背景组成，在光照比较均匀的时候，二值化就相当于如何找到一个合适的阀值把字符和背景分开。对于阶跃边缘，变化最剧烈的地方位于某一阶导数的极限点，或者说，位于其二阶导数的过零点处。由于图像的边缘有一定取向，如果希望二阶导数无方向，则可用拉普拉斯算子。而为了减少噪声的影响，可先把图像做高斯滤波。

2）Marr算子实现牌照图像二值化

对于灰度图而言只有两种情况一种是底色比字符亮，一种是底色比字符暗，对于字符比底色亮的牌照首先要反色后才能用Marr算子来二值化，所以就必须判断牌照的底色颜色，但是在光照不均匀和牌照过亮的情况下是很难判定颜色是白色还是蓝色，而在比较暗的地方则很难判定蓝色和黑色。所以就提出了一个判定是否需要反色的方法，因为如果能够得到字符内的像素的平均亮度和底色的平均亮度，则很容易判断反色，方法如下：

首先，对牌照图像进行对比度拉伸；

然后，用水平Sobel算子和垂直Sobel算子得到牌照的边缘图，对水平Sobel图逐行扫描，碰到边缘点时则记下这一小段线段的终点，继续扫描直到碰到另一段边缘的起点，计算这两点间距离。如果距离小于阀值t(t=3)则认为这是字符内像素点，如果距离大于t (t=5)则认为是底色的点，此外情况则不考虑，给这些像素点做好标记。同样，对垂直Sobel图扫描，然后把两幅扫描图综合起来，求底色和字符色的比值。

通过以上方法可以判断是否需要反色，如果要反色，则反色后再用Marr算子和图像进行卷积，然后根据过零点来二值化。

3）二值化后牌照图像处理

对二值化的图像处理方法之一就是去除左右边缘，一般情况左右边缘在两边，在确定了可能的左右边缘后，可以分析此区域的特点，它可能会高出上边缘或者低于下边缘或者两者皆有，通过分析这些特征，可以确定其是否是真正的边缘。对于上下边缘的处理则比较简单，一般情况下，上下边缘会比较长并且会在字符的上下边缘之外。在知道了字符的上下点后可以用来拟合直线，通常可用来清除直线外的区域。直线的拟合算法用的是最小二乘法。

2.4、字符分割及识别

通过神经网络算法迭代查询具有自学习、自记忆的知识树，每个树枝结点都可能是最终值，迭代后，按照输出值的可能性比例，产生识别出的车牌号码。神经网络应用于牌照识别技术中是通过将二值化后的图像进行迭代查询来实现的。

3、结语

1）通过改进的神经网络算法（将一颗大的神经树分成若干小的神经树）迭代查询知识树。该方法大大提高了图像识别率和识别准确度。

卷积神经网络的一般步骤范文第3篇

关键词：极低信噪比环境；基音频率；进化算法；遗传算法；粒子群算法

中图分类号： TN912.3?34 文献标识码： A 文章编号： 1004?373X（2017）11?0046?07

Evolutionary algorithm based fundamental tone frequency

detection in low SNR environment

ZHANG Xiaoheng1， 2， LI Yongming2， XIE Wenbin2

（1. Chongqing Radio & TV University， Chongqing 400052， China； 2. College of Communication Engineering， Chongqing University， Chongqing 400030， China）

Abstract： A frequency?domain detection model was constructed. The fundamental tone frequency is extracted as characteristic value. The model parameter （optimization factor） is introduced into the detection model， for which the global optimization is carried out with evolutionary algorithm （EA） to get the global optimum of the fundamental tone frequency， and obtain a better balance in optimization accuracy and time cost. Two representative EAs （genetic algorithm （GA） and particle swarm optimization （PSO） algorithm） are used to perform the algorithm design. The proposed algorithm is compared with the other representative algorithms. The comparison results show that the proposed algorithm can improve the detection recognition rate greatly in the noise environments of different types and different degrees， especially in the very?low SNR environment.

Keywords： very?low SNR environment； fundamental tone frequency； evolutionary algorithm； genetic algorithm； PSO

0 引言

基音频率是语音信号最为重要的参数之一。准确有效地检测基音频率对很多语音技术起着极为关键的作用，如说话人检测、跟踪、语音分离及识别等。尽管基音频率检测已经研究多年，并取得了一系列成果，但相关算法大都适用于高信噪比环境，而实际应用中，大多数语音都处于复杂恶劣的噪声环境中。因此，针对低信噪比环境，特别是-5 dB以下的基音频率检测算法的研究，对实现性能优良、实用的语音处理技术，取得实效应用有着重要的现实意义[1?4]。

基音频率检测的有效性依赖于语音信号谐波结构的完整性，噪声叠加造成谐波结构被破坏，而随着信噪比的下降最终难以分辨一个完整的谐波周期。因此低信噪比下实现优良的检测性能具有较大难度[5?9]。

由于语音信号参数随时间变化缓慢，相邻多个语音帧信号参数会保持一定连续性，因此典型的基音频率检测算法可以分为两个阶段[10]：第一个阶段找出基音频率的多个可能候选值，或者计算基音频率值落在不同频率区间的概率。第二阶段一般依赖DP[11]或HMM[12]算法，从多个候选值选出最终的基音频率值。这些算法大都利用了相邻语音帧数据之间的相关性找出最优的基音频率序列值，从而使得整体的后验误差概率最低。但这类利用数据间强相关性的算法本身也会导致一定错误。此外，该类算法对相关性的过高要求在现实中常常难以得到较好满足。

为了抑制噪声，目前研究的方法一般分为参数化方法和非参数化方法两类[13]：参数化算法采用统计方法对谐波结构进行建模，其典型的代表算法有GMM[14]算法；非参数化算法一般从频域的谐波结构或者时域的周期特性入手，通过对频域或时域峰值的检测得到基音频率，其典型的代表算法有RAPT[15]算法和YIN[16]算法，但这类方法在信噪较高时比较有效，而当信噪比较低时其峰值特性很容易湮没在噪声之中从而使得难以检测出基音频率。

近年在该领域有一些研究成果出现，如HSAC?SAMSF[17]算法对谐波进行自相关运算，然后作对称性相加求和来寻找基音周期，该算法充分利用语音的谐波特性，并通过DCT相关运算及对称累加运算抑制噪声；TAPS?CA[18]算法对频域信号进行相关运算，并利用稀疏矩阵对其进行重建，该算法利用短时谱的自相关运算抑制噪声，在高信噪比环境利用最小均方误差法求取稀疏矩阵，在低信噪比环境下利用GMM法对误差信号进行建模，从而得到最优稀疏矩阵。PEFAC[13]算法是最近提出的性能优良的基音频率检测算法，其通过对信号的对数谱进行压缩以求取峰值信号，充分利用噪声统计特性及幅度谱的压缩抑制噪声，具有极低信噪比环境下较好的抗噪声干扰能力，且在-20～20 dB信噪比下均性能良好。基于人工神经网络的基音频率检测算法[10]也利用了PEFAC算法的特征提取优势，并进一步采用深度神经网络进行建模，但相比PEFAC算法仅在-10 dB信噪比以上得出性能优良的结论。

总的来说以上算法都是在经典的参数化及非参数化方法上做了一定程度的改进，但仍然很难改变无法精确有效描述复杂噪声环境中语音信号的缺陷。由于语音信号具有多次谐波特性，基音频率这一重要参数可通过特征波形的峰值表达。因此，本文针对参数化方法与非参数化方法的各自不足，充分利用PEFAC对语音信号进行基音频率特征提取，构造基音频率特征波形，通过对特征波形的峰值求取实现基音频率的提取。但是当语音信号被噪声污染时，信号的谐波特征被破坏，特征波形的峰值与基音频率就存在一定的误差。当信噪比恶化时，该误差就会明显增大，严重影响了峰值对基音频率的表达。基于此，本文引入优化因子对特征波形进行校正以抵消噪声带来的畸变。该优化因子的精确取值能最大程度地抑制噪声带来的畸变影响，从而消除特征波形峰值与基音频率的误差。

本文将优化因子最佳取值问题转换为最优化问题，尝试利用进化算法来获取其全局最优解。进化算法的优势在于其可解决复杂的非线性及多维空间寻优问题，通过构造含有优化因子的适应度函数，从而能动态寻找出最佳基音频率值所对应的优化因子的值。

1 基于进化算法面向极低信噪比环境的基音频

率检测方法（LSNR_PFD_EA）

本文提出的基音频率估计算法，即低信噪比下基于进化算法的基音频率估计（LSNR_PFD_EA）主要包括特征提取模块、基于进化算法的优化因子搜索模块及基音频率提取模块三部分。图1为该算法主要流程。

如图1所示，首先提取语音的频域特征，此频域特征称为基音特征波形，其峰值用来表达基音频率值，然后设计一个多维变量称为优化因子，对基音频率特征波形的峰值进行有效调整，使得调整后的峰值能够表达的基音频率是真实基音频率值的最佳逼近。本文的特征提取方式基于PEFAC，包括短时傅里叶变换，频域对数化，规整化，再进行频域卷积得到基音特征波形即图中的特征值。接着，通过优化因子搜索模块，利用基音特征波形与优化因子共同构造适应度函数，利用进化算法结合训练语音搜索到最佳优化因子。最后，对测试集语音提取其特征值，基于搜索得到的最佳优化因子对该特征值进行优化，优化完成后再通过动态规划（DP）得到语音的基音频率。

1.1 特征提取模块

特征提取模块主要包括如下步骤：

（1）语音帧信号首先通过短时傅里叶变换映射到频域。代表第帧的功率谱密度，对数频域的功率谱密度采用表示，其中规整化后的功率谱密度为：

（1）

式中：代表长程平均语音谱；而代表平滑后平均语音谱。

（2）规整化的频谱通过如下扩展峰值的滤波器增强其谐波特性。其中滤波器定义如下：

（2）

其中的选取满足而设置为1.8且设置为10。

（3）通过对规整化的功率谱密度进行卷积得基音特征波形接下来的基音检测方法一般可先从中选取较大的几个峰值对应的频率值作为候选基音频率值。

（4）然后通过DP等规划算法得到基音频率值的最佳估计值。

当信噪比恶化时，特征波形的峰值被严重破坏，使得候选值均极大地偏离真实值，也就无法得到准确的估计值。为减小候选值与真实值的误差，本文提出了优化因子策略，即使用优化因子计算优化后的基音特征波形从中选取新的峰值对应的候选基音频率值，使得最终的基音频率估计值与真实值的误差最小。

1.2 优化因子搜索模块

1.2.1 优化函数分析

图2表示了优化因子在基音频率检测中的作用。其中图2（a）为不含噪声的语音帧经过特征提取之后的输出；图2（b）为SNR=-10 dB下语音帧经过特征提取之后的输出；图2（c）为图2（b）经过优化因子处理后的波形，若选取幅值最大的3个峰值作为基音频率候选值，通常最大峰值对应的基音频率值成为估计值的概率是最大的，如果后续不作DP规划，则最大峰值对应的基音频率值就是基音频率估计值，如果要作DP规划，最终的估计值要在候选值，三个值之中选取。从图中发现，图2（a）中基音频率候选值与图2（b）中基音频率候选值的误差很大，特别是最大峰值对应的频率值误差极大，这是低信噪比环境下噪声干扰的结果。

若要提升基音频率估计精度，减小估计误差，可通过优化因子处理，如图2（c）所示。通过将区间segment的幅度做一定程度的提升，则该区间峰值对应的频率就会成为候选基音频率，而免遭错误遗漏。优化因子取值的不同可以使波形在不同区间的幅度进行放缩。通过进化算法来搜索最优因子，从而使图2（a）与图2（c）的基音频率候选值误差最小。图2是某一类语音帧的情况，由于不同语音帧的基音频率候选值有所不同，而受到噪声污染后基音特征波形的畸变也明显有所不同，因此每个语音帧的理想优化因子也不尽相同，事实上针对每一帧语音数据找出其对应的理想优化因子是没有意义的，因为优化因子数量十分庞大而无法使用，其次优化因子与语音帧的关联性也无法得到有效建立。但肯定能找出一个合理的优化因子，相对于每一帧语音数据来说虽不一定最优，但相对于所有帧语音数据来说，总体误差最小。基于以上分析，优化因子的取值就被转化为一个求解最佳优化因子的最优化问题。由于优化因子是高维向量，加上不同维的取值都有一定精度，优化因子的可能取值是海量的，即候选解空间较大。此外，优化因子和峰值与基音频率间误差的关系并非线性相关，因此候选解空间将存在多个局部极值点。鉴于进化算法全局寻优的特性，本文基于GA[19]和PSO[20]算法分别求解该优化问题。

GA和PSO算法都涉及确定适应度函数的问题，用于基音频率检测的优化因子的适应度函数分为如下两种情况：

（1）不使用DP动态规划

由于不使用DP动态规划，优化后的基音特征波形最大峰值对应的频率值为基音频率估计值，其与真实基音频率值的误差。

因此适应度函数即小于5%的概率。

（2）使用DP动态规划

表示时刻语音帧基音特征波形的峰值幅度，表示与之相关联的频率，则选择较小峰值的代价其中为最大峰值幅度；基音频率候选值的选择率其中为相邻语音帧的时间偏移量，则跃迁到的代价为其中为在训练语音库中的均值；时刻语音帧基音频率候选值与基音频率中值的相对误差为，其中可通过时刻最大峰值幅度对应的基音频率候选值及相邻帧的值估计得到，若相邻帧不是浊音帧则跳过。综上，时刻语音帧的第个基音频率候选值跃迁到时刻语音帧的第个基音频率候选值的总代价为三者之和：其中为限制的最大值，而表示各参数相关权重。

将总代价最小时选择的峰值频率作为基音频率估计值，因此适应度函数为：

即小于5%的概率。

1.2.2 优化算法?进化算法

（1） GA算法

本文采用二进制遗传算法，其主要流程如下：

步骤1：二进制编码；

步骤2：随机产生二进制种群；

步骤3：计算其对应的适应度函数值

步骤4：计算种群适应度之和

步骤5：计算每个的选择概率

步骤6：计算每个的累加概率

步骤7：竞争法进行选择操作；

步骤8：对新一代种群进行单点随机交叉运算；

步骤9：单点随机变异操作；

步骤10：第一代计算完毕，返回继续计算步骤3，直到达到满意的结果为止。

（2） PSO算法

本文采用粒子群算法的主要流程如下：

步E1：根据优化因子的维度与取值范围确定粒子群的参数；

步骤2：初始化粒子群，其中粒子的信息可用两个维向量表示，第个粒子的位置（即优化因子）可表示为：

，

其中与为每一维的取值上下限，速度可表示为其中与均为取值范围在0～1之间的随机数；

步骤3：计算每个粒子的适应度；

步骤4：根据进化方程更新及粒子位置速度：

步骤5：是否满足终止条件，否则返回继续计算步骤3，直到达到满意的结果为止。

2 实验结果与分析

2.1 实验条件

2.1.1 数据说明

本文采用TIMIT标准数据库测试算法性能。训练集包含20男20女，每人3句话。噪声训练集为NOISE?92，包含white，babble，car三种噪声。纯净语音与噪声相混合，信噪比SNR分为9个不同的等级：-20 dB，-15 dB，

-10 dB，-5 dB，0 dB，5 dB，10 dB，15 dB，20 dB。测试集包含10男10女，每人3句话。标准基音频率使用Praat工具从纯净语音中提取。

以两种标准方式测试估计结果：基音频率识别率（DR）。DR是针对浊音而言，计算误差不超过5%的概率，为浊音帧数，为其中计算误差不超过5%的帧数，计算式如下：

2.1.2 参数设置

优化因子的维度为10，每一维的取值范围均在0.5～1.5之间。当使用GA算法时，基因总数为100，搜索下限为0.5，上限为1.5，交叉概率为0.8，变异概率为0.1，迭代次数为30；当使用PSO算法时，种群大小为20，粒子初始速度为0.01，最大速度为1，粒子群维度为10，取值范围在0.5～1.5，认知加速度为2，社会加速度为2，惯性权重为1，退化因子为1，迭代次数为60。

2.2 两种进化算法的效果对比

图3为不同迭代次数下，两种进化算法的检测效果。两种算法共同的规律是随着信噪比的提高，收敛速度会加快。随着迭代次数的增加，检测率变化越来越缓慢或者根本不发生变化。这说明信噪比越低优化的空间越大，因此信噪比越低，特征波形的结构受噪声影响越大。再对比GA与PSO算法，GA算法仅在信噪比为-20 dB下的识别率有较为明显的变化，其他信噪比下几乎没有变化。从最终的识别率来看，相同信噪比下PSO的识别率要高于GA，因此说明PSO算法在搜索最佳优化因子上更加有效。因此，后续实验中，主要采用基于PSO的基音检测算法进行效果对比。为了便于说明，基于GA的基音检测算法记为LSNR_PFD_GA，基于PSO的基音检测算法记为LSNR_PFD_PSO。

2.3 不同类型噪声环境下的检测效果对比

图4为三种类型的噪声环境下，本文LSNR_PFD_ PSO算法与三种主流算法J&W，YIN，RAPT的识别效果对比。

由图4可见，对于不同类型的噪声（白噪声，babble噪声，car噪声），本文算法均优于其他算法。此外，信噪比越低，本文算法的改进效果越明显。例如，-5 dB以下，本文算法的识别率提高了10%～20%，而在-20 dB时，其提升程度可以达到20%～50%。这说明本文算法非常适合低信噪比环境下的基音频率检测。

2.4 DP对基音频率检测的影响分析

图5为本文算法与PEFAC算法针对采用DP与否进行的效果对比。比较采用DP与不采用DP计算的三种噪声（白噪声，babble噪声，car噪声）在不同信噪比下的平均识别率，采用DP算法并用PSO优化后的识别率是最好的，不采用DP而使用PSO优化的识别率并不如使用了DP的PEFAC效果好，但比未采用DP和PSO优化的效果好很多。这说明DP对基音频率检测算法具有明显的正面作用，本文算法也不例外。为了最大限度地发挥本文算法效率，建议采用DP。

图4 基音频率识别率比较

2.5 进化算法参数影响分析

图6为基于不同参数设置，在不同信噪比下（白噪声，babble噪声，car噪声） LSNR_PFD_PSO算法的平均识别率。图6（a）为种群规模设置不同带来的影响。图6（b）为粒子飞行初始速度设置不同带来的影响。

由图6（a）可见，随着种群规模的增大，识别率有所增加但不明显，当种群规模由20增加至200，-5 dB以下识别率平均提升了2%左右。鉴于种群规模与计算复杂度的关系，因此需要结合具体情况，通过统计实验设定合适的种群规模。此外，还发现种群规模对识别率的正面作用在低信噪比下更明显。由图6（a）可见，在信噪比为-20 dB，200的种群规模较20的种群规模提高效果为25%左右。由图6（b）可见，粒子初始速度与识别率为负相关关系，当其较大时，识别率会变差。具体来说，当粒子速度由0.01增至0.05时，-5 dB以下识别率平均下降3%。这个结果的可能原因是初始速度太大将影响搜索的精细程度，较容易错过最优解。由于初始速度过小将增加计算代价，因此也需要结合具体情况，通过统计实验来设定合适的初始速度。

2.6 相关算法的时间代价对比

表1为不同算法基于同一运算平台的平均时间代价。计算机平台为Intel CPU 2.6 GHz，算法分别为PSO，GA，PEFAC，RAPT，YIN，“算法时间代价”是指当前算法在装有Matlab软件的计算机平台上处理1 s语音数据运行的平均时间代价。

由表1可见，LSNR_PFD_PSO，LSNR_PFD_GA和PEFAC算法的时间代价一致，均为0.175 s。这个时间代价并不包含进化算法的训练时间，这是由于一旦训练完成后，几种算法的实时检测过程所需时间代价几乎无差别。本文算法与YIN算法的时间代价也相当，比PART算法明显降低。根据多次实测表明，本文算法工作所需时间代价完全满足实时性要求，现实可行。

3 结论

极低噪声环境下的基音频率检测是一个非常有用但具有较大难度的科研问题，迄今为止，一直没有得到很好的解决。针对目前新提出的抗噪性能较好的基音检测算法的不足，本文引入最佳优化因子来消除噪声带来的畸变影响。通过把最佳优化因子取值问题转化为最优化问题，引入进化算法加以求解，显著提升了低信噪比环境下基音频率检测性能。实验结果表明，面对不同类型不同信噪比的噪声环境，本文算法均取得了较为显著的改进效果，且信噪比越低，改进效果越明显。针对下一步工作，本文拟考虑进行更大噪声环境的实验及对进化算法的改进以提高最佳优化因子的搜索效率和基音频率检测的泛化性能。

参考文献

[1] RAMAKRISHNAN A G， ABHIRAM B， PRASANNA S R M. Voice source characterization using pitch synchronous discrete cosine transform for speaker identification [J]. Journal of the acoustical society of America， 2015， 137（6）： 469?475.

[2] WOHLMAYR M， PERNKOPF F. Model?based multiple pitch tracking using factorial HMMs： model adaptation and inference [J]. IEEE transactions on audio， speech and language processing， 2013， 21（8）： 1742?1754.

[3] HAN K， WANG D L. A classification based approach to speech segregation [J]. Journal of the acoustical society America， 2012， 132（5）： 3475?3483.

[4] RAO K S， MAITY S， REDDY V R. Pitch synchronous and glottal closure based speech analysis for language recognition [J]. International journal of speech technology， 2013， 16（4）： 413?430.

[5] SHARMA D， NAYLOR P A. Evaluation of pitch estimation in noisy speech for application in non?intrusive speech quality assessment [C]// Proceedings of 2009 European Signal Processing Conference. Glasgow： IEEE， 2009： 2514?2518.

[6] SHIMAMURA T， KOBAYASHI H. Weighted autocorrelation for pitch extraction of noisy speech [J]. IEEE transactions on speech and audio processing， 2001， 9（7）： 727?730.

[7] SHAHNAZ C， ZHU W P， AHMAD M O. Robust pitch estimation at very low SNR exploiting time and frequency domain cues [C]// Proceedings of 2005 IEEE International Conference on Acoustics， Speech， Signal Processing. Philadelphia： IEEE， 2005： 389?392.

[8] SHAHNAZ C， ZHU W P， AHMAD M O. A robust pitch estimation algorithm in noise [C]// Proceedings of 2007 IEEE International Conference on Acoustics， Speech， and Signal Proces?sing. Honolulu： IEEE， 2007： 1073?1076.

[9] WU M， WANG D L， BROWN G J. A multipitch tracking algorithm for noisy speech [J]. IEEE transactions on speech and audio processing， 2003， 11（3）： 229?241.

[10] HAN Kun， WANG Deliang. Neural network based pitch tracking in very noisy speech [J]. IEEE transactions on audio， speech and language processing， 2014， 22（12）： 2158?2168.

[11] GOSAIN A， SHARMA G. A survey of dynamic program analysis techniques and tools [J]. Advances in intelligent systems and computing， 2014， 327： 113?122.

[12] JIN Z， WANG D L. HMM?based multipitch tracing for noisy and reverberant speech [J]. IEEE/ACM transactions on audio， speech and language processing， 2011， 19（5）： 1091?1102.

[13] GONZALEZ S， BROOKES M. PEFAC： a pitch estimation algorithm robust to high levels of noise [J]. IEEE/ACM transactions on audio， speech and language processing， 2014， 22（2）： 518?530.

[14] MCLACHLAN G， PEEL D. Finite mixture models [M]. New York： Wiley?Blackwell， 2000.

[15] TALKIN D. A robust algorithm for pitch tracking （RAPT） [R]. Amsterdam： Elsevier， 1995： 495?518.

[16] DE CHEVEGNE A， KAWAHARA H. YIN， a fundamental frequency estimator for speech and music [J]. Journal of the acoustical society America， 2002， 111（4）： 1917?1930.

[17] SHAHNAZ C， ZHU W P， AHMAD M O. Pitch estimation based on a harmonic sinusoidal autocorrelation model and a time?domain matching scheme [J]. IEEE transactions on audio， speech and language processing， 2012， 20（1）： 322?335.

[18] FENG Huang， TAN Lee. Pitch estimation in noisy speech using accumulated peak spectrum and sparse estimation technique [J]. IEEE transactions on audio， speech and language processing， 2013， 21（1）： 99?109.

卷积神经网络的一般步骤范文第4篇

随着各行各业对板带材质量要求的不断提高，轧辊偏心成为影响产品质量的不容忽视的重要因素。厚度控制过程中的轧辊偏心控制技术的开发和研究仍然是板带材轧制所面临的共同课题。我国对轧辊偏心控制问题的研究还不深入，本论文的工作就是试图在这方面做些努力。

本文的研究内容是厚度控制过程的轧辊偏心控制技术，着重探索应用重复控制抑制轧辊偏心的控制方法，从频域和离散域两个方面提出厚度控制系统的重复控制器的设计方案，并对方案在稳定性、稳态特性、过渡过程特性和鲁棒性方面进行理论分析，同时对系统进行仿真研究。本文的主要工作如下：

⑴ 给出了冷轧厚度控制的数学模型和轧件硬度波动前馈补偿的控制模型；对轧辊偏心进行了系统、深入的研究，给出获得偏心信号模型的改进快速傅立叶变换的方法；

⑵ 针对单输入单输出PID厚度控制系统，首先提出了单轧辊偏心扰动重复控制频域设计方案，在重复控制环节中引入一种补偿器，有效提高了系统稳态精度。其次提出了多轧辊偏心扰动重复控制频域设计方案，提出了轧辊偏心的并行重复控制器结构。

⑶ 针对多输入多输出厚度、张力控制系统，首先给出了系统控制对象模型，其次提出了单轧辊偏心重复控制频域设计方案，然后扩展到多轧辊偏心控制系统，并给出了单轧辊偏心扰动和多轧辊偏心扰动时重复控制补偿器的设计方法。

⑷ 针对重复控制对偏心扰动的基波及其谐波抑制效果较好，而对基波和谐波附近频率扰动的抑制较差问题，提出了一种鲁棒重复控制结构，这种结构对轧辊偏心扰动信号的周期不确定性有较强的鲁棒性。

⑸ 因工程中普遍采用数字化设计，对于流量AGC、反馈AGC控制结构及流量AGC、反馈AGC、轧件硬度前馈的控制结构分别提出了单轧辊偏心、双轧辊偏心及多轧辊偏心鲁棒数字重复控制器设计方案。这些设计方案能有效地降低补偿器阶次。

理论分析和仿真结果证明上述提出的系统设计方案的有效性。

Application study on roll eccentricity control on cold rolling AGC system based on repetitive control

Abstract

As the tolerance requirement for the thickness of steel plate and strip products getting tighter and tighter, the roll eccentricity is becoming more and more important factor affecting the product quality. To precisely control the flat rolled products in cold rolling, an investigation on roll eccentricity becomes essential and such research is lacked in our country so far. In this thesis, attention is focused on control of gauge of steel plate and strip in the presence of periodic disturbances such as the eccentricity.

Repetitive control system, known to be effective for periodic disturbance, seems to fit naturally with the eccentricity compensation problem. The roll eccentricity control technologies in cold rolling of flat rolled strip based on repetitive control theory are mainly studied in this dissertation. The key innovations of this paper are summarized as follows:

⑴ The mathematical models of steel plate and strip gauge control are presented. A control scheme of feed forward compensation for material rigidity is put forward. Through theoretical analysis, the characteristics of roll eccentricity are summarized. An modified Fast Fourier Transform algorithm of acquiring roll eccentricity signal is proposed.

⑵ For SISO PID gauge control system, design in the frequency domain based on repetitive controller rejecting single roll eccentricity disturbance is introduced. A compensator is included for the first time in the control scheme. In addition, a control structure of repetitive controllers resisting multi roll eccentricity disturbance is proposed. All the design schemes have been analyzed. Simulations show that proposed schemes are effective.

⑶ For MIMO gauge and tension control system, repetitive control for a single roll eccentricity compensation is first presented.The structure is then extended to the case of multiple roll eccentricity. The design method of compensator of repetitive controllers is introduced. Theoretical analysis and simulation results are presented to demonstrate the effectiveness of the repetitive control structure proposed.

⑷ Repetitive control is useful if periodic disturbances act on a control system. Perfect (asymptotic) disturbance rejection can be achieved if the period is known exactly. For those cases where the roll eccentricity period changes, a robust repetitive controller structure is proposed. It uses a robust repetitive control structure in the feedback configuration, so that small changes of period do not degrade the disturbance rejection properties. The robust repetitive controller shows good result for rejecting eccentricity.

⑸ The digital robust repetitive control schemes compensating single and multiple roll eccentricity are proposed. The design framework can reduce the order of compensator effectively. The gauge adopt the structure of constant volume flow AGC and feedback AGC , avoiding system instability caused by control delay of measurement of height instrument. The material rigidity feedforward is added to the gauge control structure. The theoretical analysis and simulation results on the two gauge control structure show a good performance on the rejection of disturbances such as eccentricity.

摘要 1

Abstract 2

1 绪论 1

1.1 问题的提出 1 1.3 重复控制理论研究现状 12

1.4 本文的主要工作及各部分内容安排 14

1.4.1 主要研究内容 14 2 轧辊偏心问题的理论分析和冷轧板板带厚度控制模型 17

2.1 轧辊偏心问题的理论分析 17

2.1.1 辊身和辊径不同轴的情况 17 2.1.3 偏心信号的采集和处理 20

2.1.4 应用MMFFT方法的偏心控制方案 31

2.2 带钢厚度控制模型 35

2.2.1 带钢冷轧过程的基本方程 35

2.2.2 厚度反馈控制模型 38

2.2.3 前馈控制模型 41

2.3 本章小结 44

3 冷轧SISO板厚控制过程中轧辊偏心的重复控制 45

3.1 单轧辊偏心扰动重复控制系统 45

3.1.1 厚度控制系统结构及组成 45 3.1.3 重复控制环节的设计 54

3.1.4 重复控制和鲁棒PID控制混合设计 58

3.2 双轧辊偏心重复控制系统 61

3.2.1 双轧辊偏心重复控制系统的结构及仿真 61

3.2.2 系统稳定性分析 62

3.3 多轧辊偏心重复控制系统 65

3.3.1 多轧辊偏心重复控制系统的结构及仿真 65

3.3.2 系统稳定性分析 66

3.4 本章小结 67

4 MIMO厚度、张力控制系统的轧辊偏心重复控制 69

4.1 厚度和张力控制系统结构和对象模型 69

4.1.1 过程控制模型 69 4.1.3 厚度、张力及速度控制系统的解耦 75

4.1.4 闭环控制系统仿真 78

4.2 单轧辊偏心扰动重复控制系统 80

4.2.1 系统结构 80

4.2.2 系统穩定性分析 80

4.2.3 系统品质分析 83

4.2.4 系统鲁棒性能分析 84

4.2.5 重复控制器设计 84

4.2.6 系统仿真 85

4.3 多轧辊偏心扰动重复控制系统 86

4.3.1 系统结构 86

4.3.2 系统稳定性分析 87

4.3.3 系统性能分析 88

4.3.4 系统鲁棒性分析 89

4.3.5 系统设计及仿真 90

4.4 本章小结 96

5 周期不确定的轧辊偏心鲁棒重复控制系统 97

5.1 周期不确定轧辊偏心扰动的重复控制原理和结构 97

5.1.1 常规重复器的结构及其对周期不确定扰动抑制分析 97 5.2 周期不确定单轧辊偏心扰动的鲁棒重复控制系统 106

5.2.1 系统稳定性分析 107

5.2.2 系统动态性能 108

5.2.3 系统鲁棒性分析 108

5.2.4 系统仿真 109

5.3 多周期偏心扰动的鲁棒重复控制系统 110

5.3.1 系统的结构及稳定性 110

5.3.2 双轧辊偏心扰动的鲁棒重复控制系统仿真 112

5.4 本章小结 113

6 厚度控制过程的轧辊偏心扰动数字鲁棒重复控制 114

6.1 数字重复控制器抑制扰动信号的原理 115

6.2 单周期(基波)扰动的鲁棒数字重复控制系统 116

6.2.1 系统结构 116

6.2.2 单周期扰动鲁棒重复控制系统的稳定性 119

6.2.3 单周期扰动鲁棒重复控制系统约束条件分析 121

6.2.4 单轧辊偏心(基波)扰动数字鲁棒重复控制系统 124

6.3 基波及二次谐波扰动鲁棒数字重复控制系统 126 6.3.2 数字重复控制器的设计 129

6.3.3 单轧辊偏心扰动(基波及二次谐波)鲁棒数字重复控制系统 129

6.4 多周期扰动鲁棒数字控制系统 131

6.4.1 系统的结构及鲁棒稳定性 131

6.4.2 双轧辊偏心扰动鲁棒数字重复控制系统 134

6.5 本章小结 135

7 总结与展望 136

7.1 本文的工作总结 136

7.2 今后研究展望 136

参考文献 138

在学研究成果 145

致谢 146

绪论

问题的提出冷轧过程中，影响产品厚度精度的因素很多，但大体可分为两大类[3～5]，即轧件工艺参数的变化和轧机状态的变化。轧件工艺参数的变化，主要包括材料的变形抗力和坯料尺寸以及张力、工艺等轧制工作条件的变化。板带材的化学成分和组织的不均匀、焊接时的焊缝等都会造成材料变形抗力的变化，在冷轧时引起出口厚度的波动。热轧钢卷(来料)带来的扰动主要有热轧带厚不匀，这是由于热轧设定模型及AGC控制不良造成的，来料厚度不均匀将使实际压下量产生波动，导致轧制压力和弹跳的变化，进而影响产品厚度精度；热轧卷硬度不匀(变形阻力)，这是由于热轧终轧及卷取温度控制不良造成的。来料厚差将随着冷轧厚度控制逐架减少。但来料硬度确具有重发性，即硬度较大或较小的该段带钢进入每一机架都将产生厚差。冷轧时带钢前后张力的变化、轧制速度的变化及摩擦系数波动等也是造成轧出厚度波动的原因。带钢轧制过程中的张力变化会改变变形区应力状态，从而造成轧制压力的波动和轧出厚度的不均。轧制速度变化主要是通过摩擦系数、轴承油膜厚度来影响轧制压力和实际辊缝，导致轧出厚度的变化。轧机本身的扰动主要包括不同速度和压力条件下油膜轴承的油膜厚度将不同(特别是加减速时油膜厚度的变化)、轧辊偏心、轧机各部分热膨胀、轧辊磨损等。轧辊偏心是高频扰动，会引起板厚周期性波动，影响产品质量。

此外还有工艺等其它原因造成的厚差，属于这类的有：不同轧制乳液以及不同速度条件下轧辊－轧件间轧制摩擦系数的不同(包括加减速时的摩擦系数的波动)；全连续冷连轧或酸洗－冷连轧联合机组在工艺上需要的动态变规格将产生一个楔形过渡段；酸洗焊缝或轧制焊缝通过轧机时造成的厚差。这一类属于非正常状态厚差，不是冷轧AGC所能解决的，是不可避免的。

根据产生带钢厚度偏差的不同原因，可采取相应的厚度调节方式和措施来消除或减少它。目前，按其调节方式概括为[6,7]：

⑴ 调节压下量即改变辊缝；

⑵ 改变带钢在机架前、后张力或一侧的张力，即改变轧件塑性曲线的陡度；

⑶ 改变轧制速度；

⑷ 同时改变轧辊辊缝与带钢张力。

在上述调节方式中，最常用的是调节压下的厚度控制方法[8～10]。调节压下量即调节辊缝有两种不同方式，即：

① 电动杆涡轮带动压下螺丝转动使工作辊之间的相对辊缝产生变化来实现带钢厚度控制的。由于电机、减速机的惯性很大，电机及传动系统的启动、制动时间长，因此，从厚度控制指令发出到轧出预定的带钢厚度其控制时间更长。另外，因需大的电机、减速压下它是通过电机、减速机、蜗机等机电设备，故轧机成本高，而且维修也不方便；为了克服诸多因素对板带材厚度的影响，提高产品的厚度精度，已经开发了和发展了多种厚度控制系统[15～17]，如测厚仪反馈AGC、压力AGC、流量AGC、监控AGC和前馈AGC等。传统AGC在控制精度方面各有其独特的特点，在轧机上得到广泛的应用[18～20]。

⑴ 测厚仪反馈AGC

测厚仪反馈AGC系统是在带钢从轧机轧出后，通过轧机出口测厚仪测出实际轧出厚度值，并将其与给定厚度值比较，得出厚度偏差：

(1.1)

再通过厚度自动控制装置将变换为辊缝调节量的控制信号，输出给压下或推上机构，以消除厚度偏差。用测厚仪信号进行厚度反馈控制时，由于考虑到轧机机构的限制、测厚仪的维护以及为了防止带钢断裂而损坏测厚仪，测厚仪一般装设在离直接产生厚度变化的辊缝有一定距离的地方，这就使检测出的厚度变化量和辊缝控制量不在同一时间发生，所以实际轧出厚度的波动不能得到及时反映。结果整个厚度控制系统的操作都有一定的时间滞后，用下式表示：式中为滞后时间，为轧制速度，是轧辊中心线到测厚仪的距离。由于存在时间滞后，所以这种测厚仪反馈式厚度自动控制系统很难进行稳定控制。因此目前普遍采用利用弹跳方程对变形区出口厚度进行检测，然后进行反馈控制。这将大大减少滞后，但由于弹跳方程精度不高，虽然加上油膜厚度补偿等措施仍不能保证精度。这正是当前推出流量AGC的原因。安装了激光测速仪后可精确实测前滑，因而流量方程精度大为提高，用变形区入口及变形区出口流量相等法，根据入口测厚仪及机架前后激光测厚仪可准确确定变形区出口处的实际厚度，因而提高反馈控制的精度。根据流量变形区入出口流量相等：

(1.3)

式中：分为入出口带钢宽度；分为入出口的速度，分为入出口带钢的厚度。一般情况下，入出口宽度变化不大，因而有：

(1.4)

从而得到出口厚度：

(1.5)

⑵ 间接测厚反馈AGC

为了避免直接测厚仪产生的时间滞后，常采用压力间接测厚反馈AGC系统。即借助于测量某一时刻的轧制压力和空载辊缝，通过弹跳方程计算出此时刻的轧出厚度，亦即：

(1.6)

式中：为轧出厚度，为轧制压力，为预压靠值，为空载辊缝，为轧机刚度系数。利用此测得的厚差进行厚度自动控制就可以克服前述的传递时间滞后，实现稳定的反馈控制，提高产品厚度精度。然而，在计算带钢出口厚度的算式中，是在轧辊轴承处测出的辊缝值，轧辊偏心对实际辊缝的影响在此反映不出来，这就给控制系统带来了误差。假定在某一时刻，偏心对辊缝的实际影响为，那么此时的实际辊缝值为，实际造成的厚度厚度波动值应为(假设该时刻没有其它因素使变化)

(1.7)

但由于此时辊缝仍为，所以由计算得出的厚度波动为：

(1.8)

因和符号相反，显然。这样，就给以作为反馈量的间接测厚AGC系统引入了误差，造成了间接测厚AGC系统调节质量的降低甚至恶化。即当有偏心存在时，实际板厚减少了，但由于这时轧制力增大，间接测厚AGC系统反而认为板厚增加了，因此控制器就越朝着使板厚减少的方向动作，结果使得比没有压力的AGC系统时的板厚精度更为低劣。

由此可见，间接测厚AGC系统克服了时间延迟，是一种实用、有效的厚度自动控制系统。但是，如前所述，间接测厚AGC系统不但不能对偏心有所抑制，而且还会由于轧辊偏心的存在而导致其控制质量的进一步变差。当产品精度要求较高或轧辊偏心较严重时，间接测厚AGC就不可能达到满意的控制效果。所以，在配置有间接测厚AGC系统的轧机上，常常附加一些抑制偏心影响的措施，如设置死区、带通滤波等。这些措施避免了轧辊偏心对间接测厚AGC系统的恶劣影响，却不能消除轧辊偏心对轧出厚度所产生的直接不良影响。

⑶ 前馈AGC

考虑到来料厚差是冷轧带钢产生厚差的重要原因之一，因此冷连轧机一般在第一机架前设有测厚仪，可直接量测来料厚差用于前馈控制，机架间亦设有测厚仪用于下一机架的前馈控制。前馈AGC的原理是根据来料厚度波动信号，再根据轧制速度作适当延时，在波动部分进入机架的同时调节辊缝，以消除厚度偏差。辊缝调节量为：

(1.9)

式中：为轧件塑性系数。

⑷ 张力AGC

冷轧带钢，特别是后面的机架，带钢愈来愈硬，越来越薄，因此塑性变形越来越困难，亦即其值越来越大，因而使压下效率越来越小。

(1.10)

式中：为压下效率，当远远大于时，为了消除一个很小的厚差需移动一个很大的。

采用液压压下后由于其动作快使这一点得到补偿，但对于较硬的钢种，轧制较薄的产品时精调AGC还是借助于张力AGC。当然张力AGC有一定的限制，当张力过大时需移动液压压下使张力回到极限范围内以免拉窄甚至拉断带钢。

⑸ 监控AGC

机架后测厚仪虽存在大滞后但其根本优点是高精度测出成品厚度，因此一般作为监控。监控是通过对测厚仪信号的积分，以实测带钢厚度与设定值比较求得厚差总的趋势(偏厚还是偏薄)。有正有负的偶然性厚差是通过积分(或累加)将相互抵消而得不到反映。如总的趋势偏厚应对机架液压压下给出一个监控值，对其“系统厚差”进行纠正，使带钢出口厚度平均值更接近设定值。为了克服大滞后，一般调整控制回路的增益以免系统不稳定，或者放慢系统的过渡过程时间使其远远大于纯滞后时间，为此在积分环节的增益中引入出口速度。其后果是控制效果减弱，厚度精度降低。克服大滞后的另一种办法是加大监控控制周期，并使控制周期等于纯滞后时间，亦即每次控制后，等到被控的该段带钢来到测厚仪下测出上一次控制效果后再对剩余厚差继续监控，以免控制过头。这样做的后果亦将减弱监控的效果。为此，有些系统设计了“预测器”，通过模型预测出每一次监控效果，继续监控时首先减去“预测”到的效果，使监控系统控制周期可以加快，并且不必担心控制过头而减少控制增益。

即此偏心将使带钢出口厚度产生的波动，这一严重影响是不容忽视的。不仅如此，如前所述，轧辊偏心还会对压力AGC系统产生不良的影响，使其调节质量恶化。所以，要想轧出高精度带钢，必须考虑补偿轧辊偏心影响的措施。采用厚度外环和压力内环的目的亦是为了抑制偏心的影响。轧辊偏心将明显反映在轧制压力信号和测厚仪信号中。对轧制力来说，实测的轧制力信号实际是由给定轧制力(其中包括来料厚度和来料硬度带来的影响)和偏心信号综合组成[1]，考虑到这两部分信号在控制策略上是相反的，因此在未投入偏心补偿时必须通过信号处理将轧制力信号分解成两个部分。从轧制力信号提取出的偏心信息可以用下式表示：

(1.11)

式中：分是幅值、频率和初相角。频率与转速有关，幅值决定偏心大小，而初相角则决定于信号的初始坐标点，为此需在轧辊上设有单脉冲编码器(多脉冲等于将轧辊转角分成多个等分，并以其中一个坐标点作为初始坐标点)。从正弦特性可知，只有两个幅值相等但反相，频率相等并且初始角相同的两个信号相加才能完全互相抵消。否则，频率不同的正弦信号无法相加；幅值不同则无法完全消除偏心影响；初始角对不准则无法抵消，如果差还可能加剧而不是抵消。由于在实施控制时还要考虑液压执行机构惯性问题，采用这种两个完全相反的正弦波抵消的办法实施起来难度较大。

轧辊偏心控制技术的研究情况

轧辊偏心，一般可归纳为两种类型，一种是由辊身和辊颈不同轴度误差所引起的偏差，另一种是由辊身椭圆度(不圆度)引起的偏差，由于轧辊偏心的干扰，辊缝偏差一般可达0.025～0.05mm。轧辊转一周，其干扰变化一次，故轧辊偏心的干扰发生高频周期变化，从而造成成品带钢厚度的波动。轧辊偏心，主要是指支撑辊偏心，因为工作辊直径小，其偏心量只有几个；而支撑辊直径一般为1500mm左右，轧辊磨床加工精度能保证轧辊椭圆度约为，上下辊叠加。随着用户对产品质量要求日益严格，这种轧辊偏心的干扰越来越不能忽视。为了有效抑制偏心干扰，对系统各个部分的快速性和准确性都要求很高，任何部分的误差和时滞都会影响补偿效果，甚至可能使偏心的不良影响加剧。计算机在工业过程控制中的普遍应用和液压压下(推上)装置在轧机上的应用为解决这个问题提供了硬件上的可能性。由于电动机压下装置惯性大，传输效率低(一般)，对周期性高频变化无能为力，一般只能在控制系统中设置“死区”，以避免压下螺丝周期性频繁动作。而液压压下系统惯性小，压下速度和加速度都显著提高(一般，同时具有设备重量轻、有过负荷保护能力等优点。对于消除由轧辊偏心所造成的这种高频变化的周期波动，必须采用这种液压压下(推上)系统。第一类解决办法按其信号检测和模型辨识的在线和离线方式，可分为开环控制和闭环控制。按其信号处理手段可分为简单处理法、各种滤波器法和傅立叶级数法。早期的简单处理方法包括用千分尺直接测定支持辊的移动或间接测定轧辊轴承座的移动，并根据这个测定值调整安装在轧辊上的自整角机输出的正弦波的相位和振幅，按照与支撑辊移动相反的方向实施补偿。滤波器方法是一种常用的偏心信号检测方法。各种滤波器方法都程度不同地存在些问题，不可避免地混进偏心以外的频率成分，而又毫无办法地漏掉了偏心信号中的谐波分量。除了滤波器以外，还有解决偏心控制问题的傅立叶分析法。这一方法一般来说要比滤波器方法的信号处理精度高，补偿效果显著。北京科技大学孙一康教授和他的博士研究生刘淑贞在20世纪90年代初以上海第三冷轧带钢厂的高精度四辊可逆冷轧机为试验背景，配以必要的测量仪表和计算机系统，并利用快速傅立叶变换的偏心控制方案，利用相干时间平均方法的偏心控制方案和复合建模偏心控制方案进行大量的现场实验，取得了满意的实验效果[35～37]。

澳大利亚的E.K.Tech等提出的用于冷轧机的改进的带钢厚度控制器和我国原冶金部自动化院陈振宇教授等提出的冷轧机轧辊偏心自校正调节器则应属于第二类。在消除轧辊偏心影响的同时，也抑制了其它干扰因素对带钢厚度均匀性的影响。Tech方案是根据轧制原理，建立一套包括支持轧辊偏心效应、轧机部件的塑性变形过程和弹性变形形变在内的控制设计模型并估计偏心信号周期。反馈控制器对轧制力、滞回、与轧机有关参数和轧制力调整机构的非线形响应进行补偿。此方法在把偏心分量从厚度计法厚度误差估计中分离出来，通过前馈方法补偿偏心干扰效应的同时，也实现了准确的厚度估计，通过反馈回路完成了综合厚度控制。这一方法在澳大利亚公司的冷轧机的初步现场实现表明，它可使轧辊偏心对轧制力和带钢出口厚度的影响减少30％，使总的厚度精度提高40％。但此方法要求对轧机系统各部分的机理和参数都了解得很清楚，而且对测厚仪的安装位置等也有限制，这对有些轧机而言是难以实现的。

国外对偏心诊断、智能和最优控制的研究较深入和富有成果，主要有：Kugi等提出基于稳定传递函数的因数分解逼近和最小均方算法；Aistleitner K等提出采用神经网络进行偏心辨识的方法；Garcia等提出了采用多处理器实时偏心诊断方法和实时模糊偏心诊断方法；Fechner等提出了神经偏心滤波器，该滤波器用于在线偏心控制时对于变化的偏心周期具有较好的适应性，该方法还用到了递归最小二乘学习算法；Choi 等提出了偏心最优控制方法等。

除此之外，欧美日各大公司的工程专家也提出了多种轧辊偏心的补偿方法，这些方法又可以分为下面三类：

⑴ 被动轧辊偏心控制方法。这类方法不是试图补偿轧辊偏心对轧件厚度的影响，其主要目的是使辊缝控制系统对轧辊偏心引起的厚度干扰影响不敏感，而不需要辊缝按照辊缝偏心函数进行校正，这就排除了厚度变化增大的可能；

⑵ 主动轧辊偏心补偿法。这类方法一般包括轧辊偏心分量检测和随后得出的补偿信号送到辊缝调节器中以补偿轧辊偏心，轧辊偏心分量是从反映主要轧制参数(如轧制力、辊缝、轧件出口厚度以及带钢张力等)的信号中测得的，根据检测信号的不同处理方法，这类方法可分为下面两种：

① 分析法轧辊偏心分量是通过应用数学分析法(例如傅立叶分析法)从检测信号中提取出来；

② 综合法轧辊偏心分量是通过复制轧辊偏心分量得到，信号复制可采用机械法和电量法；

⑶ 预防轧辊偏心控制法。这类方法是在轧制前创造一些条件以便能减小偏心对厚度的影响，而在轧制中不采用任何校正措施。

国外公司典型的偏心补偿方法有：

⑴ 死区法死区法是一种被动偏心控制法，此法通常可消除控制信号中的周期分量；

⑵ 轧制力法轧制力法是一种主动式轧辊偏心方法，把出口厚度的误差信号转换成附加轧制力基准信号；

⑶ 辊缝厚度控制法辊缝厚度控制法是利用安装在轧机工作辊之间的传感器测出轧制过程中的辊缝偏差，由德国Krupp提出的辊缝控制(IGC)系统就由辊缝传感器组成的，它们被装在机架每侧的工作辊辊颈之间，这样，它们不会受到带钢的损坏；

⑷ 前馈控制法已经在轧机辊缝控制中得到广泛的应用，它包括以下三个步骤：

① 在上游机架的前几机架的轧制道次中，分段测出带钢厚度波动；

② 当带钢每一段即将进入末尾即机架轧制辊缝中时，确定所需的厚度修正量；

③ 在末尾几机架中对带钢每一段实施厚度修正。应用这种方法能够补偿包括轧辊偏心在内的各种因素在内的厚度偏差。一般在中间使用张力控制系统主要有两种。第一种是通过调节上游机架的速度进行带钢张力控制，第二是调节下游机架的辊缝进行带钢张力控制。成功采用前馈控制系统控制轧辊偏心的关键在于轧机电机能否使速度调节器获得适当的速度响应特性；

⑸ Newmann法这种方法是由德国穆勒－纽曼公司的Newmann等人提出的，它是利用随支承辊同时旋转的凸轮来模拟轧辊偏心，位移传感器测出凸轮偏心，然后发出电子信号，传送给辊缝调节器。这种方法虽然简单，但没有得到广泛应用。原因是：

① 在机架中安装支承辊之前，显然要仔细测定每一个支承辊偏心幅度和相移；

② 在轧辊偏心测定结束后，每个凸轮和支承辊偏心相移必须一致。由于支承辊偏心明显非正弦变化，所以要把它和凸轮正弦变化对应起来相当困难；

③ 支承辊与凸轮外形的不协调性也是造成轧辊偏心不能得到补偿重要原因；

④ 不能补偿工作辊椭圆度造成的辊缝变化；

⑹ Alsop法以测厚仪原理为基础进行辊缝控制。假设带钢厚度发生波动，使轧制载荷产生低频波动，而轧辊偏心使载荷产生相当高的频率波动，载荷信号的低频分量在任何通道都不会衰减，它将产生正反馈，正反馈大小为：式中：为轧机纵向刚度，另一方面载荷信号的高频分量仅能通过一个通道，就这部分来说，载荷回路中产生负反馈信号，增益大小为，这样回路会产生信号，它被送到辊缝调节器以补偿轧辊偏心；

⑺ Smith 法英国戴维联合仪器公司的Smith提出以测厚仪原理为基础的辊缝控制系统中轧辊偏心补偿法，它的缺点是使用了金属构件类型的整流器，它会产生于控制信号的波幅差不多的噪声信号；

⑻ Howard法英国戴维联合工程公司的Howard提出利用在轧制过程中两个所测定的参数来测定轧辊偏心，第一个参数是安装在轧机每侧的载荷传感器测出轧制力的波动量，第二个参数为即将进入轧机的轧件厚度波动量；

⑼ Shiozaki(盐崎)、Takahashi(高桥)法也称为轧辊偏心傅立叶分析法(FARE)，它是日本的石川岛播磨公司(IHI)Shiozaki、Takahashi提出的，该方法应用了轧辊偏心量ec和轧制力变化量之间的关系：

(1.13)

式中：Q为轧件塑性系数，为轧机纵向刚度。因为轧辊波动量与支承辊旋转一周周期一致，于是可得：

(1.14)

式中：A为偏心量幅值，为支承辊角位置与轧辊零偏心位置之间的相位角。由于轧制力波动包含有许多不同频率的分量，对于一级谐波来说，根据简单傅立叶级数，其变化量表达式为：

(1.15)

式中：B、C为常数。在支承辊旋转一周的时间内，通过测量轧制力的变化量就可以获得A、B、C和，按照预设定的时间间隔对测定的轧制力进行采样，其中T是支承辊旋转一周所需时间，为旋转一周的采样个数。可得：

，，， (1.16)

通过FARE法测出偏心信号通过压力控制回路可以调节辊缝，以便减小或增大偏心补偿载荷，偏心补偿载荷信号将持续累积到轧辊偏心载荷分量在轧制载荷信号中完全消失为止。然后，当再也测不出偏心载荷分量时，FARE输出信号就被存储在存贮器中。随着轧制持续运行，FARE信号不断存储于存储器中，并且持续计算；

⑽ Cook法西屋电气公司的Cook提出的方法是建立在假设轧辊偏心所起的轧制力变化为正弦变化，变化周期等于支承辊旋转周期基础上。假设，轧制力为

(1.17)

式中：为支承辊旋转一周对应的平均轧制力，为轧制力变化的振幅，为支承辊选定零位与平均轧制力对应的支承辊位置之间的夹角，为轧辊角位置。于是得到：

(1.18)

式中：分为上下支承辊对应的补偿信号波幅：

， (1.19)

式中：为轧机纵向刚度。

⑾ Fox法 Cook法的应用局限于双驱动布置的电机，而检测轧辊偏心需花费大量的时间，西屋电气公司的Fox利用上下支承辊之间的差异产生的摇摆现象控制偏心。根据Fox法，在压靠时将轧辊转动但不咬入轧件时测定轧制力，假定轧辊偏心变化量呈正弦变化，此时在一个偏摆周期内，两轧辊轧制力信号分别等于：式中：分为上下支承辊角位置，分为偏心引起的轧制力波动幅度。

⑿ Ichiryu等人的方法日本日立公司的Ichiryu等人提出提出连续测定入口带钢厚度和轧制力，然后使用这些测量值获得出口厚度，根据相关函数，利用统计方法就可以测出轧辊偏心造成的干扰量，然后从控制系统中消除；

⒀ Hayama(叶山)方法该方法已应用在三菱重工研制的自动轧辊偏心控制系统中，这种方法的原理是使用在线和离线方法检测轧辊偏心，然后加权求和。离线法是在压靠条件下利用摇摆现象测定轧辊偏心，在线法是在轧制条件下，通过使一个支承辊相连的脉冲发生器信号和所测的轧制力信号联系起来，进行轧辊偏心检测；

⒁ Yamagui(山口)法日本日立和新日铁公司的山口提出的轧辊偏心方法是通过出口厚度偏差采样测得的从头前转期间的数据计算出轧辊偏心补偿信号；

⒂ Weihrich和Wohld法德国西门子公司的Weihrich和Wohld提出的轧辊偏心的方法是基于测厚仪原理，通过求和放大器用辊缝的输出信号和载荷传感器输出信号来计算板带出口厚度，而求和放大器的输出信号也包含有轧辊偏心成分。利用辊缝值和成正比的信号就可以通过信号混合器产生轧辊偏心总的信号，同时也改变入口处板带厚度变化成分和入口处板带稳定成分，利用高通滤波器，从混合器输出信号中去掉稳定成分；

⒃ Gerber法伯里斯(bliss)公司的Gerber开发了一套自适应数字化偏心补偿(ADEC)系统，该系统利用了声学技术的最新成果，即具有复制信号中的任意选定交变成分的技术；

⒄ Ooi(大井)法日本住友公司的Ooi利用支承辊平衡液压缸的这些机构来控制偏心。这种方法是使带有电动压下结构的轧机无须进行任何显著的的改进就可以实现系统高精度的快速效应。支承辊偏心通过傅立叶分析就可以确定出上下辊操作及驱动侧位置相关的轧辊偏心成分；

⒅ Ginzburg法国际轧钢咨询公司及联合工程公司的Ginzburg提出两种轧辊偏心补偿方法，第一种方法是利用差拍现象，尤其是利用上下支承辊向同一方向发生偏心时轧辊偏心最小的事实；第二种方法是在轧制过程中对轧辊偏心进行连续补偿。

总之，随着对该高质量板带材需求的日益提高，轧辊偏心控制问题得到各国轧钢控制界的普遍重视，各种检测和控制方法相继出现。国外大公司一般在这个领域获得专利，我国在这个领域尚有差距，需要促进对轧辊偏心控制技术问题的理论分析和研究，不断使其走向深入和完善。

重复控制理论研究现状针对周期信号发生器正反馈带来的非平凡问题在如何保证系统稳定问题，Hara等证明，如果对象是正则的且不是严格正则的，系统就能保证稳定[48]。为了克服这种重复控制系统不易稳定的局限性，Hara等1988年提出在重复控制环节中引用低通滤波器来滤掉高频部分，以高频部分牺牲一些特性来实现系统的鲁棒性。因此低通滤波器的选择对于重复控制非常重要，它的引入一方面有利于系统稳定，另一方面，却带来系统的稳态误差，它反映了闭环系统特性和系统鲁棒稳定性间一种折中考虑。1985年和1988年Hara等提出了基于状态空间的设计方法。近来，鲁棒优化控制和结构奇异值方法也用来设计和分析重复控制[49,50]。Peery 和 Ozbay(1993)利用无穷维优化控制原理提出了一种2步法设计优化重复控制器。他们同时提出通过优化重复控制器的滤波器进一步改善系统主要特性的方法。Guvcac(1996)对于连续时间的重复控制系统结构奇异值提出鲁棒稳定和动态特性分析方法，即分别用－1和1代替系统内模的延迟部分估计结构奇异值的下确界和上确界，这样就把原来的无穷维问题化作有穷维问题。可以利用这种结构估计连续时间重复控制系统的稳定性和鲁棒特性。但是，得出结构奇异值的下确界比用1代替时小，上确界又比用－1代替时大。直到延迟足够大这种估计才能得到满意的结果。另外，这种估计还需满足相位要求，因此这种结构不能用来综合。

重复控制器不断被改进，且被数字化[51～54]。为了减小控制器离散化造成的误差，很多研究者关注于用离散化方法直接设计重复控制器。Tomizuka等提出一种针对稳定开环对象的零相位偏差跟踪的重复控制器(Zero Phase Error Tracking Controller)，这种方法特点是滤波器的结构和对象同阶并满足时延。基于相同的补偿器结构，Tsao和Tomizuka(1988，1994)进一步获得使系统鲁棒稳定的内模零相位低通滤波器的方法，给出了和非模型动态的关系，确定了鲁棒稳定的充分条件。这种方法可以用于最小相位和非最小相位系统。Alter 和Tsao推导出基于二维模型匹配算法的重复控制算法，并它应用到线性马达的控制过程。Kim和Tsao(1997)综合前馈、重复和反馈控制方法，实现电液执行器的鲁棒特性控制。Tsao 等把重复控制利用到凸轮机械的非圆旋转。在极点配置方法中，Ledwich 和Bolton提出了LQ(Linear Quadratic)设计方法。Hillerstrom和Sternby(1994)提出了基于标准Bezout辨识的极点配置方法。Bamich 和 Pearson(1991)提出了采样数据提升技术(lifting technology)并将其用于设计最优采样数据重复控制系统。Langari 和Francis(1996)提出基于结构奇异值的采样数据鲁棒控制系统的鲁棒分析方法。

Srinivasan和Shaw提出了频域设计方法[55,56]，并提出了被称作重构谱的频率函数[57,58]，利用它来判定重复控制系统的相对稳定性。如果在没有重复控制环节时闭环系统稳定，则对于频率，是系统稳定的充分条件。设计重复控制的离散时间重构谱的改进方法由Srinivasan和Shaw于1993年提出。基于谐波频率处对象频率响应的系统稳定改进方法在1995年由Sadegh提出。 Hanson(1996年)提出一种序贯重复控制系统。首先利用最优控制设计能增加闭环动态硬度的内环控制器，然后基于零相位偏差跟踪控制设计外环重复控制器以保证跟踪或抑制周期输入。由于这是两步设计(两个控制器分别设计)，所设计的控制器阶次必然高。内环最优控制器的特性将在最大峰值2处被外环重复器降低。Guo提出利用替代基于重复控制零相位跟踪控制中的。选择和做为灵敏度函数进行频率调整，以抑制磁盘驱动伺服控制的二次谐波干扰的抑制。众所周知，基于重复控制的零相位偏差跟踪控制需要是低通滤波器，且频带尽可能宽。因为的选择必须兼顾重复控制特性和稳定鲁棒性，因此灵敏度函数的频率调整受这种因素限制。Li和Tsao成功应用鲁棒重复控制于磁盘伺服控制。

本文的主要工作及各部分内容安排

主要研究内容

由于重复控制对周期性信号具有很好的自学习能力，因此对周期性扰动具有很好的抑制作用。重复控制只需知道扰动信号的周期，对信号的初始状态，如初相角和幅值等没有要求，这样大大简化信号的检测，同时降低了控制难度。重复控制的难点在于对系统稳定性要求较高。国内外将重复控制应用于轧辊偏心控制的文献不多。围绕研究带钢高精度厚度控制的目的，本文以获得厚度精度控制为目标，重点研究厚度控制过程中应用重复控制抑制轧辊偏心扰动。本文主要做两方面的工作。首先针对厚度控制过程中轧辊偏心补偿问题的特点，将先进的的重复控制理论和自动控制理论有机结合应用到这个问题中来，提出控制方案；其次从稳态精度、稳定性和鲁棒性三个方面进行理论分析，对控制方案进行计算机仿真研究。

⑴ 首先提出了单轧辊偏心扰动重复控制抑制的单输入单输出(SISO)厚度控制系统频域设计方案，方案中为了弥补重复控制延迟环节前引入滤波器带来的控制精度问题，提出一种补偿器，给出了补偿器的设计方法。厚度控制采用测厚仪测厚的反馈AGC控制方案，用Smith预估器补偿被控对象滞后，补偿后的广义对象采用常规PID控制。同时还给出了一种将鲁棒PID控制器和重复控制设计结合在一起的混合设计方法。其次提出了多轧辊偏心扰动重复控制补偿的SISO厚度控制系统频域设计方案。对系统的稳定性、鲁棒性和系统动态品质进行了分析，同时对控制方案进行了仿真研究；

⑵ 针对多输入多输出厚度、张力控制系统，首先提出了单轧辊偏心重复控制频域设计方案，然后扩展到多轧辊偏心控制系统。采用逆奈奎斯特方法对被控对象进行解耦。对控制方案进行了理论分析和仿真研究，证明重复控制抑制单周期和多周期偏心扰动的有效性；

⑶ 针对重复控制对偏心扰动的基波及其谐波抑制效果较好，而对基波和谐波附近频率信号扰动的抑制较差，同时轧制过程中因各种原因造成轧辊偏心信号的周期可能波动或者偏心扰动信号不能准确测量或辨识情况，提出了一种鲁棒重复控制结构，从理论上证明了这种鲁棒重复控制较常规重复控制性能优越，对扰动信号的周期波动不敏感，具有很强的鲁棒性。将这种结构用于厚度控制系统，仿真结果证明了这种结构对周期不确定轧辊偏心信号具有很强的抑制能力。

⑷ 因工程中普遍采用数字化设计，分别提出了单轧辊偏心、双轧辊偏心及多轧辊偏心鲁棒数字重复控制器设计方案.这种设计能有效地降低补偿器阶次。厚度控制采用流量AGC和反馈AGC结合的控制结构，避开因测厚仪测厚滞后造成的系统不易稳定的弊端。所有方案都进行了理论分析，同时对所提出的硬度前馈和厚度反馈的控制结构在偏心扰动和硬度扰动下进行了仿真，结果证明这些方案的有效性。

各部分内容安排

全文共分7个部分，每部分的具体内容安排如下：

第一章首先阐述了冷轧板带厚度控制方法和研究现状，指出了抑制轧辊偏心扰动在高精度厚度控制过程中的重要性；其次，综述了国内外轧辊偏心的研究成果及现状。

接着全面介绍了重复控制概念的基本内涵、应用的对象和重复控制理论的研究成果；最后给出了本文的主要研究内容。

第二章首先全面而系统的归纳了轧辊偏心的的特点和性质，在此基础上，给出了获取偏心信号的改进傅立叶方法；其次给出了几种厚度控制模型，提出了硬度波动前馈控制模型。

第三章首先给出了单轧辊偏心扰动重复控制抑制的单输入单输出(SISO)厚度控制系统频域设计方案；其次提出了多轧辊偏心扰动重复控制补偿的SISO厚度控制系统频域设计方案。对系统的稳定性、鲁棒性和系统动态品质进行了分析，同时对控制方案进行了仿真研究。

第四章针对多输入多输出厚度、张力控制系统，首先提出了单轧辊偏心重复控制频域设计方案，然后扩展到多轧辊偏心控制系统。对控制方案进行了理论分析和仿真研究。

第五章针对周期不确定轧辊偏心信号，提出了一种鲁棒重复控制结构，从理论上证明了这种鲁棒重复控制较常规重复控制性能优越，并对其抑制周期不确定轧辊偏心信号进行了仿真。

第六章分别提出了单轧辊偏心、双轧辊偏心及多轧辊偏心鲁棒数字重复控制器设计方案，给出降低补偿器阶次的方法。对所有方案都进行了理论分析和计算机仿真。

第七章对全文工作进行了总结，提出了下一步工作设想。

轧辊偏心问题的理论分析和冷轧板板带厚度控制模型

轧辊偏心问题的理论分析

广义上说，轧辊和轧辊轴承形状的不规则引起辊缝周期性变化称为轧辊偏心。轧辊偏心会导致轧件厚度周期变化，轧辊的偏心可以归纳为两种基本类型。一种是由辊身和辊径的不同轴度引起的偏差所引起的；另一种是由轧辊本身所具有的椭圆度所产生的。而实际情况可能是两者共同作用的结果。

辊身和辊径不同轴的情况

图2.1 辊身和辊径不同轴的情况

如图2.1所示，为辊径的轴心，为辊身的轴心，为辊身的半径，X为与之间的距离。偏心运动轨迹相当于辊身表面可移动点A绕辊径轴线转动，即偏心波形为的轨迹。设支承辊转动的角速度为，，在三角形中，由余弦定理可知：

(2.1)

设t=0时，＝0，=，。由正弦定理得：

(2.2)

从而有：

(2.3)

因而有轧辊偏心运动轨迹的参数方程为：

(2.4)

根据以上参数方程，得轧辊偏心波形如图2.2所示。

图2.2 轧辊偏心波形

图2.3 辊身为椭圆时的示意图

轧辊具有椭圆度的情况

如图2.3 所示，o是轧辊的轴心，是理想辊身的半径，a 和b 分别是实际椭圆截面的长轴和短轴。实际情况可能不是椭圆。偏心波形为椭圆周上可移动点A与理想圆周的径向距离的轨迹，r为A到轧辊轴心线的距离。设辊身转动的角速度为，t=0时，，则有:

(2.5)

又由椭圆方程得：

即

从而

因此有

(2.6)

因而得到轧辊偏心曲线方程为

(2.7)

得到的偏心波形类似于图2.2。

如果两个辊的角速度相同，那么合成的偏心信号仍然是同频率的周波。这是因为周期信号可以分解为一系列的正弦波之和。而两个同频率的正弦波之和仍是正弦波。设和为两个角频率为的正弦波，其中

(2.8)

则合成的波形为

(2.9)

式中：

(2.10)

(2.11)

合成波形的振幅发生变化，相位发生偏移，频率保持不变。轧辊偏心波形一般不是纯粹的正弦曲线，而是包括多次谐波的复杂的周期波。它有以下特点：⑴ 周期性轧辊每转动一周，偏心信号重复出现一次；⑵ 频率和幅值不是固定不变的。当轧制速度变化时，其频率也随之成比例变化。在轧制过程中，由于轧辊的热膨胀和磨损，偏心信号的幅值也会发生缓慢变化；⑶ 偏心信号不仅含有多次谐波，而且还含有各种各样的随机干扰。

偏心信号的采集和处理

轧辊偏心对厚度的影响可以用出口厚度变化的频谱分析来评估，斯太尔克利用快速傅立叶变换(FFT)，从出口厚度数字化信号中分离所有周期分量，并依据所有轧辊转速和尺寸，能够辨别出大部分频谱峰值，通过对频谱选择过滤同时结合反变换FFT技术，每个轧辊对出口厚度变化的影响都能测量出来。从上面分析中，我们知道轧辊偏心信号是包括多次谐波的高频周期波，偏心信号的频率与轧制速度成正比。在生产过程中，由于随机噪声、缓慢变化量等的存在，采集的偏心信号会出现突变、漂移等无规则变化，但总的偏心信息不会突变。轧辊更换以后，它的偏心量就基本上确定了。，并在短时间内不会突变。根据这一特点，在每次换辊以后，在正常轧制状态下，对轧制压力信号进行采集，从中提取偏心成分，建立偏心模型。进而对轧辊的偏心进行补偿。

将采集到的轧制力信号进行A/D转换，然后进行去均值(去掉直流分量)和相干时间平均处理，使噪声干扰得以减弱或消除，提高信噪比；对预处理后的信号进行快速傅立叶变换(FFT)，建立轧辊偏心参数模型。在轧辊上安装一个光码盘，以产生两列脉冲。一列相对轧辊某一固定点，每转一周发出一个脉冲，此脉冲作为采样和控制的初始定位信号；另一列是轧辊每转一周，光码盘发出128个脉冲数列以进行FFT，建立模型。相干时间平均方法适应于周期信号或重复信号，它将各个周期信号和噪声信号同时叠加后加以平均，如果噪声是随机的，则在叠加过程中会相互抵消，而信号是有规律的，叠加平均后幅值不变。必要条件是噪声应具有一定随机性，而信号则具有重复性，且两者互不相干。

设混有噪声的信号为，信号反映系统的某种基本特征。在相同的条件下，具有重复性。噪声为均值为零，方差为的平稳随机信号，且、互不相关。对第i个样本采样M次，然后做相干平均得：

(2.12)

傅立叶变换是在以时间为自变量的信号与以频率为自变量的频谱函数之间的变换关系。傅立叶变换可以辨别出或区分出组成任意波形的一些不同频率的正弦波。快速付立叶变换是建立在离散时间概念上的，它不单纯是对离散时间付立叶变换的近似，而是从离散付立叶变换出发，有一整套自成体系的、离散时间域中的严格的基本定理和数学关系。离散付立叶变换能把一个有限长度序列映射成另一个有限长度序列，因而很适合于数字计算机计算。利用离散付立叶变换的一些代数结构，可以实现高速算法，快速付立叶变换能使离散付立叶变换的计算时间成数量级的缩短。快速付立叶变换的出现使付立叶变换已不仅仅是一种理论概念，而且成为一种技术手段。

⑴ 离散付立叶变换[65 ,66]

当用数字计算机对信号进行频谱分析时，要求信号必须以离散值作为输入，而计算机输出所得的频谱值，自然也是离散的。因此，必须针对各种不同形式信号的具体情况，或者在时域和频域上同时取样，或者在时域上取样，或者在频域上取样。信号在时域上取样导致频域的周期函数，而在频域上取样导致时域的周期函数，最后将使原时间函数和频率函数都成为周期离散的函数。

从严格的数学意义上讲，离散周期序列的付立叶变换是不存在的。但是，如果利用周期函数可能展开为付立叶级数的指数形式并使用冲激序列，则可以把付立叶级数逐项作积分变换，从而在形式上得到付立叶变换对。

设为一周期连续信号，如果以抽样间隔为的抽样率进行抽样，抽样结果为，则可表示为：

(2.13)

设一个周期内的抽样点数为，即到，则

可写成：

于是有：

(2.14)

对进行抽样等于先将它的一个周期抽样成，然后把这一个周期进行延拓。所以有：

(2.15)

式中上的符号表示周期重复，它是离散时间周期冲激序列，是的一个周期内抽样所得的数值；为抽样序号，；为抽样间隔；为的周期；为任意整数。

令，并将展开成付立叶级数

(2.16)

式中：，的单位为，系数可表示为：

(2.17) (2.18)

对式（2.18）进行付立叶变换得：

(2.19)

定义

(2.20)

由于

所以。这里是的个周期，。也就是说的周期为，在每个周期内，。于是，式(2.20)可写成：

(2.21)

上式说明，周期离散时间序列经付立叶变换后在频域中是离散频率的周期序列，这种形式的变换也称为离散付立叶级数变换。在数学上，离散周期序列的付立叶级数变换可简明表示为：

(2.22)

(2.23)

为了方便，令，则式(2.22)和式(2.23)可表示为：

(2.24)

(2.25)

离散付立叶级数变换是周期序列，仍不便于计算机计算，但离散付立叶级数每个周期序列却只有(一个周期内取点个数)个独立的复值，只要知道它的一个周期的内容，其它的内容也就知道了。同时限制式(2.24)中的和式(2.25)中的都只在区间内取值，就得到了一个周期的和一个周期的之间的对应的关系：

(2.26)

(2.27)

这就是有限长序的离散付立叶变换对。

上两式所示的离散付立叶变换对可以看成是连续函数在时域、频域取样所构成的变换，可以看作是连续付立叶变换的近似，是一种很有用的变换方法。然而，当数据有较长的长度时，这种变换的计算量是很大的。分析式(2.26) 和式(2.27)可知，当用直接方法计算DFT时，总运算量及总运算时间近似地比例于，这在很大时，所需的运算量及总算时间近似地比例于，这在很大时，所需的运算量非常可观，要想用DFT方法对信号作实量处理一般是有困难的。

⑵ 快速付立叶变换(FFT)

快速付立叶变换是为减少DFT计算次数的一种快速有效的算法。它使DFT的运算大为简化，运算时间一般可缩短一至二个数量级，其突出的优点在于能够快速高效地和比较精确地完成DFT的计算。

FFT改善DFT运算效率的基本途径是利用DFT中的权函数所固有的两个特性，一个是的对称性，即，另一个是的周期性，即。利用的对称性，可根据正弦和余弦函数的对称性来归并DFT中的某些项，结果可使乘法次数约减少一半。假定是一个高复合数，可利用权系数的周期性，把点DFT进行一系列分解和组合，使整个DFT的计算过程变成一个系列迭代运算过程。因为迭代运算的计算量要比直接计算的计算量少很多，尤其是当很大时，可能成百位甚至成千倍地减少。快速付立叶变换算法正是基于这一基本思想而发展起来的。权系数的周期性是导出FFT算法的一个关键因素，高复合性则是实现FFT算法的一个重要条件。根据不同的分解方法，可以导出多种FFT算法，如按时间抽取的FFT算法，按频率抽取的FFT算法，的高复合性则是实现FFT算法的一个重要条件。根据不同的分解方法，可以导出多种FFT算法，如按时间抽取的FFT算法，按频率抽取的FFT算法，为复合数的FFT算法等。时域抽点算法的迭代过程是基本在每级把输入时间序列分解为两个更短的子序列，频域抽点算法的迭代过程则基于在每级把输出频率序列分解成两个更短的子序列。

以2为基时域抽点FFT算法是最基本最常用的算法，基2算法要求采样点数为2的整数次幂。设有一个点序列，而，首先将按序号之奇偶分解为两个点的子序列，因而得：

(2.28)

如采用下列变量替换：(当为偶数时)，(当为奇数时)，则上式可变为：

(2.29)

又因

所以上式又可改写为：

(2.30)

由于对于均有定义，而及只对有定义，因此，有必要就情况下对2.30作出说明。根据DFT的周期性可得：

(2.31)

考虑到：

则上式可改写为：

(2.32)

经整理后得：

(2.33)

式中：和可分别写成序列和的点DFT。

式(2.33)表明，一个点DFT可分解成两个点DFT，而这两个点DFT又可组合成为一个点DFT，效果是相同的，但是运算量却大不相同。很明显，如果以一次复乘和一次复加称为一次运算，那么，计算两个点DFT约共需运算，此外再加上按式(2.33)组合需要次运算，所以按先分解后组合的方式计算一个点DFT总共约需次运算。当较大(即)时，它的运算量比直接运算点的DFT约可减少一半。

因为是2的幂，所以可进一步将每个点子序列按奇偶号分解为两个点子序列，再令每两个点子序列组合成一个点DFT……。上述分解过程还可继续进行，直到第次分解，每个子序列都只有两点。这样，就把点DFT的运算转化为级组合运算，M级组合就是M级迭代过程。每次迭代要求N/2次复乘和N次复加，M级迭代约需次复乘和次复加。每次迭代要求次复乘和点DFT的迭代运算过程是基于在每级把输入时间序列分解成两个更短的子序列，因此称为时域抽点算法。图2.4 说明了此迭代运算过程。

图 2.4 N点基2 FFT的M级迭代过程

经过FFT变换结果，就可以计算出各次谐波的振幅和相角，从而建立轧辊的偏心模型，其振幅A＝，相角，频率随轧辊速度变化而变化。

偏心模型还必须转换为与采集脉冲对应的离散点的模型，即将带有三个参数的正弦波偏心模型转换成128个脉冲对应的离散点模型。轧辊偏心控制对检测和控制系统的准确性和快速性要求很高，定位定点采样保证了通过数据处理获得的偏心模型的唯一性和准确性。把正弦波的一个周期分成N段，列成表格，用步长DELTA扫过这个表，用序号作为角度参数，查表求出序列的值。假设每两个采样点之间的时间间隔维t，则正弦频率为。当步长不是整数时，采用点可能落在两表值之间，可以采用线性内插法加以修正。

⑶ 基2时域FFT算法的改进(MMFFT)

针对轧辊偏心信号本身及其控制问题的特点，对传统的基2时域FFT算法进行改进(MMFFT)。改进分两部，第一步改进的是取消传统FFT方法对采样持续时间的限制，使快速付立叶变换算法适用于处理轧辊偏心波动这类周期未知或变动的周期信号，同时又能抑制FFT固有的泄漏效应。第二步改进是就偏心控制问题而言，将周期信号中各次正弦波的绝对频率转换为相对频率，从而提高算法在偏心控制中应用的可靠性和实用性。

① 第一步改进(Modlified FFT)

人们对DFT感兴趣主要是因为它是连续付立叶变换的一个近似。近似的准确程度严格说来是被分析波形的一个函数，两个变换之间的差异是因DFT需要对连续时间信号取样和截断而产生的。因而在应用DFT解决实际问题时，常常遇到混叠效应、栅栏效应和泄漏效应等问题。

对一个连续信号x(t)进行数字处理时，要在计算机上进行计算，而计算机的输入只允许是数字信号，所以必须对连续信号x(t)进行抽样，即

(2.34)

式中：为对x(t)抽样所形成的序列。T为抽样间隔，为抽样率，。如果抽样率选得过高，即抽样间隔过小，则一定的时间里抽样点数过多，造成对计算机存贮量的需要过大和计算时间太长。但如果抽样率过低，则在DFT运算中将在频域出现混叠现象，形成频谱失真，使之不能反映原理的信号。这样将使进一步的数字处理失去依据，而且也不能从这个失真的频谱中恢复出信号来。因此，对连续信号的抽样率需大于奈奎斯特频率，即抽样率至少应等于或大于信号所含有的最高频率的两倍，即。

如果x(t)是一个周期信号，它只具有离散频谱，那么，x(t)抽样后进行FFT运算得出的频谱就是它的离散频谱。但是如果x(t)是个非周期函数，它的频谱是连续的，把x(t)的抽样进行DFT运算得到的结果就只能是连续频谱上的若干点。因为这就好象是从栅栏的一边通过缝隙观看另一边的景象一样，所以称这种效应为栅栏效应。如果不附加任何特殊处理，则在两个离散的变换线之间若有一特别大的频谱分量，将无法检测出来。减少栅栏效应的一个方法就是在原记录末端填加一些零值变动时间周期内的点数，并保持记录不变。这实质上是人为地改变了周期，从而在保持原有线连续形式不变的情况下，变更了谱线的位置。这样，原来看不到的频谱分量就能够移动到可见的位置上。

泄漏效应是由于在时域中对信号进行截断而引起的。实际问题中，所遇到的离散时间序列x(nT)可能是非时限的，而处理这个序时时，需要将其限制为有限的N点，即将它截断。这就相当于将序列乘以一个矩形窗口，如果对有限带宽的周期函数抽样后的截断长度并不正好是其周期的整数倍，就会导致离散付立叶变换和连续付立叶变换之间出现显著的差异。这是因为，根据频域卷积定理，时域中的，则频域中与进行卷积。这里，和分别是的付立叶变换，这样将使截断后的频谱不同于它加窗以前的频谱。泄漏效应的产生是由于矩形窗函数的付立叶变换中具有旁瓣亦有一定带宽而引起的。如图2.5所示。为了减少泄漏，应尽量寻找频谱中窗函数，即旁瓣小、主瓣窄的窗函数。或者通过限制采样的持续时间来抑制泄漏效应。

图2.5 矩形窗口的时域与频域图形

卷积神经网络的一般步骤

卷积神经网络的一般步骤范文第1篇

卷积神经网络的一般步骤范文第2篇

卷积神经网络的一般步骤范文第3篇

卷积神经网络的一般步骤范文第4篇

AI文章写作

相关期刊更多

数据采集与处理

北华大学学报·自然科学版

遥测遥控

精品文章排行更多

在线服务