前言:想要写出一篇令人眼前一亮的文章吗?我们特意为您整理了5篇神经网络降维方法范文,相信会为您的写作带来帮助,发现更多的写作思路和灵感。
关键词:矢量量化;自组织特征映射神经网络;图像压缩;主元分析
中图分类号:TP183文献标识码:A文章编号:1009-3044(2008)36-2731-02
The Vector Quantization Based on PCA/SOFM Hybrid Neural Network
HUNG Cui-cui, ZHANG Jian
(Liaoning University of Technology Electronic and Information Engineering College, Jinzhou 121001, China)
Abstract: In order to improve the two main shortcomings of the Kohonen's self-organizing feature map(SOFM) that are high computation complexity and poor codebook quality, the author proposes a vector quantization algorithm based on PCA/SOFM hybrid neural network in this paper. Descend the dimension of imported vectors by using the principal component analysis (PCA) linear neural network. And then, use SOFM neural network to vector quantization. By modifying the learning-rate parameter, topology field weight and initial codebook of the SOFM neural network to optimize network. Simulation results demonstrate that the image compression algorithm can shorten the time and improve the performance of codebook.
Key words: Vector quantization(VQ); Self-organizing feature map neural network (SOFM); image compression; Principle component analysis(PCA)
1 引言
矢量量化[1,2]技术是一种利用图像数据空间相关性的高效有损压缩方法,它具有压缩比大,编码速度快等优点,目前己广泛用于信号识别、语音编码、图像压缩等领域中。矢量量化优越性的体现离不开性能良好的码书,因而,矢量量化的关键是如何设计一个最佳码书,使得用该码书中的码字表征输入矢量空间分布时所引起的量化平均失真最小。近年几来,许多学者将SOFM神经网络应用于码书的设计[3]。但SOFM算法存在收敛速度慢、计算量大等缺点。陆哲明和孙圣和针对SOFM基本算法的计算量大采用了快速搜索算法,为了提高码书性能对SOFM基本算法的权值调整方法作了一些改进[4]。目前越来越多的研究人员把目光投向将矢量量化与其他的编码方法相结合[5]。例如,矢量量化与小波变换结合的算法[6],分形变换与矢量量化相结合的算法[7]。PCA是一种有效的图像变换编码算法,它能够提取图像数据的主特征分量,因此能够降低图像输入数据维数。SOFM算法用于图像矢量量化则具有不易受初始码书的影响,同时能够保持图像数据的拓扑结构等优点。为此本文将两者结合,提出了PCA/SOFM混合神经网络图像混合编码算法。先用PCA对图像进行降维处理,再用SOFM神经网络进行码书设计。本文还对码书的初始化的选择问题和神经网络的学习参数进行研究。实验表明,该算法不但大大降低了计算量,而且提高了码书的性能。
2 PCA/SOFM混合神经网络的算法
尽管SOFM神经网络比起LBG算法有很大优势,但SOFM算法仍然存在收敛速度慢。计算量大等缺点。因此本文将PCA与SOFM神经网络相结合,提出了PCA/SOFM混合神经网络。PCA/SOFM混合神经网络结构如图1所示,先用PCA线性神经网络对输入矢量降维处理,从而使得压缩图像达到最小失真。然后用SOFM神经网络进行码书设计, PCA线性神经网络采用Sanger提出的广义Hebb算法[8]。
2.1 基本PCA/SOFM混合神经网络算法
1) PCA网络权值Wpi,j和SOFM网络权值初始化;
2) PCA网络输出矢量Yp(t):
(1)
N为PCA神经网络输入矢量Xp的维数。
3) Wpi,j网络权值调整:
(2)
4) 重复步骤(2)至(3),直至算法收敛。输出矢量Ypi(t),并将此作为SOFM的输入Xi(t);
5) 计算矢量Xi(t)与权值矢量Wi,j(t)的距离:
(3)
6) 选择具有最小距离的输出节点,j*作为获胜节点,即:
(4)
7) Wij(t) 网络权值调整:
(5)
8) 重复步骤(5)至(7),直至算法收敛。
9) 取输入训练矢量集的下一个输入矢量,回到步骤(2)反复进行,直到足够的学习次数或满足规定的终止条件为止。
10) 保存所有权值Wij的值,即设计码书。
2.2 PCA/SOFM混合神经网络的初始化和改进
在PCA/SOFM混合神经网络算法中网络的初始化、邻域函数和学习率函数非常重要,它直接影响到网络的收敛速度和码书的性能。本文要对这几个参数进行优化以提高压缩速度和压缩性能。本文采用一种改进的随机选取法,使空间分配均匀,不会出现码字空间分的过细或过粗的现象。首先,按k维矢量所有元素中最重要的单个元素(即k维欧氏空间中最敏感的方向)大小排序;然后按顺序每隔n个矢量取一个矢量作为初始码书的一个码字,完成码书的初始化(n=训练序列中矢量的总数/码书的大小)。
由SOFM基本算法可知,权矢量Wi(t+1)的更新实质上是权矢量Wit和训练矢量Xi(t)的加权和。其中学习率因子和邻域函数非常重要,它们决定算法的收敛速度。下面推导最优的学习率因子α(t)。由式(5)得:
(6)
可以总结得:
(7)
令多项式的各项相等可得到最优学习率因子:
(8)
其邻域函数取为:
(9)
式中,hcc典型地取为0.8。T为最大迭代次数,初始值σ0和最终值σT典型地取为0.8和0.1。
3 实验结果
为了验证算法的有效性,本文把基本SOFM编码算法、基本PCA/SOFM混合神经网络编码算法和改进PCA/SOFM算法分别用于图像的压缩编码。本文采用的是512×512像素,256级灰度的Lena图像用于训练图像进行码书设计。首先将图像分为4×4子块,然后将每一小块的16个像素灰度值作一个训练矢量,送入PCA线性神经网络。PCA线性神经网络输出节点为8维PCA变换系数矢量,同时将它作为SOFM神经网络的输入矢量,用于进行码本设计。进过多次实验,取其平均值作为实验结果,图3给出了各种算法在相同压缩比的情况下恢复图像的对比。表1给出了各算法编码后的尖峰信噪比PSNR和码书设计时间的比较。
从测试的结果可以看出改进PCA/SOFM算法优于基本SOFM算法和基本PCA/SOFM算法,该算法缩短了码书设计的时间,图像的恢复质量有所提高,取得了令人满意的结果。从而证明本文提出的算法是一种行之有效的方法。
4 结束语
关键词:神经网络;预测;剩余油气;模式识别;训练
中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2015)09-0200-02
Abstract: The paper is aimed at the problem of traditional exploration methods can not predict the remaining oil and gas accurately, the methods of fuzzy theory and self-organizing map are approached. It takes the advantage of Fuzzy neural network system converging faster and higher prediction accuracy, as well as the unsupervised competitive learning mechanism of self-organizing map, it achieves the goal of predicting the remaining oil and gas. The method of neural network improve the precision of remaining oil and gas, it obtains better effect of prediction.
Key words: neural network; predict; remaining oil and gas; pattern recognition; train
石油是国家经济发展的命脉,油气勘探开发则是石油工业的基础,在国民经济的地位举足轻重。随着地震勘探理论方法日趋成熟,我国各大油气田勘探程度相继提高,油气田已经被大幅度开采。然而我国的石油平均采收率并不高,约为30%多一点,还有近70%的油气并未采收,传统的油气勘探方法已经不能满足增加石油的采收率。当前我国各大油田的地质勘探工作已经进入中后期,迫切需要一些新的方法研究方法和技术,对油气田剩余油气的分布和变化趋势做出预测,以便在寻找新的勘探开发领域,同时也能继续对老油气田进行挖掘,从而提高油气产量。
近些年来,随着神经网络技术[1]的日趋成熟,基于模式识别的各类方法技术,如统计模式识别、神经网络、模糊判别等技术和理论在剩余油气预测方面都得到了较多的应用,也取得了较好的结果。其中模糊理论具有很强的表达能力并且容易被人理解,神经网络的自适应学习能力很强。由于模糊理论和人工神经网络各自的优点,常常被单独或者是组合起来运用到实践中,本文主要介绍神经网络的方法运用于预测剩余油气的工作中。
1 模糊理论
1.1 发展历程
1965年美国加州大学伯里克分校的扎德教授首先创立了模糊集合的数学理论,随后P.N.Marions也开始从事相关研究,于1966年发表了一份关于模糊逻辑的研究报告。1974年扎德教授作了模糊推理的研究报告,同年英国的E.H.Mamdanl运用模糊逻辑和模糊推理首次实现了蒸汽机的实验性控制,从此模糊理论的雏形形成了,随后模糊理论[2]掀起了一波热潮。
1.2 在剩余油气预测中的应用
在预测剩余油气[3]的实践中,首先对地震资料做初步的特征提取,然后将提取的样本用模糊理论的聚类方法进行训练,对训练样本进行几类。每类都有各自对应的神经网络,用专属于每类的样本依次训练各自对应的神经网络。具体步骤如下:
1)流体属性的提取
流体属性数据是三维数据,属性的提取方法依赖于具体的物理问题与数据网格的划分。三维数据场属性边界的提取所采用的方法是求出网格点的梯度,特征区域一般是梯度模值较大的区域。对于均匀的三维网格,估计其梯度的方法可采用三维差分。为得到网格点上的梯度值,简单的方法是利用前、后、左、右、上、下六个邻近点的场值进行简单的差分估计。在计算流体力学问题中,采用的网格大都是结构化网格,为计算网格点上的梯度,需将网格变换为均匀规则正交网格。设三维网格交换为[x=T1(ξ,η,?)],[y=T2(ξ,η,?)],[z=T3(ξ,η,?)],在点(m,n,p),其场值梯度在两种网格上的关系式为:
[?f?ξ?f?η?f??=?f?x?f?y?f?z?x?ξ?x?η?x???y?ξ?y?η?y???z?ξ?z?η?z??]
2)模糊系统处理流体属性
确定输入输出的学习样本[(αK,βK,γk)],k为样本个数。利用模糊聚类的方法将输入样本分成N类,N类样本对应N条神经网络。利用各自的样本训练各自的神经网络,选择合适的学习样本,系统经过多次样本训练和样本学习之后,优化出一部分识别精度高的样本,优选的样本到达能辨别精度后,将该样本输出,这样就可以被识别了。
2 自组织神经网络
2.1 结构与工作过程
自组织神经网络是上世纪80年代芬兰Helsink大学的Kohonen在Willshaw与Von der Malsberg在的工作上,结合对自然界中的生物神经系统的理解,创建Kohonen模型,又称Kohonen网络。自组织神经网络[4]的特征映射是基于生物的大脑神经系统,模拟它的自组织特征映射机制,在样本训练中有很强大学习能力,在组织学习中不需要监控,是一种无监督竞争式学习的前馈网络。自组织神经网络通过学习,从而提取某组数据中的某种重要特征或内在规律,按离散时间的方式进行分类。网络可以把任意高维的输入作为输入神经元,映射到低维空间得到输出神经元,并且使得输入神经元内部的某些相似性质表现为几何上邻近的特征映射,这就是人们常说的降维处理。这样输出神经元会聚集成一个输出层,输出层就可以绘制成一维或二维离散几何图形,并且其拓扑结构保持不变。此分类反映了样本集之间的本质区别,大幅度降低了一致性准则中的人为因素。
如图1所示,SOM网络是一种比较简单的双层网络, 由若干输入神经元和输出神经元组成。输入层与输出层各神经元之间实现了全部互相直接或间接的连接方式,每个输出神经元可通过可变连接权与所有输入神经元相连, 且输出神经元间存在局部相互连接。每个连接都具有对应的连接权值,用于表示该连接的强度。各个神经元的连接权值均具有一定的分布,每个输入神经元与输出神经元之间的联系通过连接权来传达。输出层的神经元之间实行侧向连接,相邻的神经元相互激励,距离较远的神经元则相互抑制,然而超过了一定的距离的神经元又具有较弱的激励作用,最后剩下的一个神经元或一组神经元,则反映该类样本的属性。
2.2 预测剩余油气的步骤
1)根据勘探数据体提取流体属性[5],并对其进行预处理。
2)优选出所要了解的流体属性,对其进行降维压缩,将压缩集作为模式识别的输入,以统计的油气储层参数作为输出来训练组组织神经网络。
3)利用模式识别[6]参数和降维压缩集对储层的油气进行预测,从而得到如今的剩余油气的分布。
3 结束语
本文针对传统油气勘探的方法难以满足预测油气田剩余油的难题,着重介绍了模糊理论和自组织神经网络的方法,这两种神经网络的方法各有优势。其中模糊神经网络的系统训练和学习速度快,收敛较快,预测的精度高。自组织神经网络的竞争模式起到了快速优选的作用,神经元之间的协作模式在某种意义上则缩短了整个流程的工作时间。总而言之,神经网络的技术与方法在预测油气田的剩余油气的实践中取得了不错的成果。
参考文献:
[1] 汪镭,周国兴,吴启迪.人工神经网络理论在控制领域中的应用综述[J].同济大学学报:自然科学版,2001,03:357-361.
[2] 王晓军,杨海峰,邱志平,等.基于测量数据的不确定性结构分析的模糊理论[J].北京航空航天大学学报,2010,08:887-891.
[3] 熊艳,包吉山,肖慈.模糊神经网络预测储层及油气[J].石油地球物理勘探,2000,02:222-227.
[4] 易荣庆,李文辉,王铎.基于自组织神经网络的特征识别[J].吉林大学学报:工学版,2009,01:148-153.
关键字:自组织特征映射神经网络(SOM); 小波分析; 测井自动分层
中图分类号:O29 文献标识码:A 文章编号:1006-3315(2013)08-140-002
1.引言
在地球物理勘探中需要利用测井资料了解地下地质情况,其中测井曲线分层是首先要完成的基础工作,即将测井曲线构制成规则的矩形化曲线[1,2],以便与地质单层相对应。
通常,根据地质结构的特点和地层的变化对井分层是通过人工来进行的,但人工分层存在诸多缺漏点。相对于人工分层,自动分层可以避免人为分层的随意性,并可在很大程度上提高工作效率[3]。另一方面,希望通过自动分层处理,与人工分层的结果进行比较分析,进一步提高分层精度。
2.数据背景
本文所使用的数据均来自2011年全国大学生数学建模夏令营C题。
3.小波神经网络综合模型
3.1数据预处理――小波变换去噪
简单的归一化处理是必须的,但已不能完全满足数据处理精准度的要求,由于地质层物质的复杂性和打井器械剧烈抖动的影响,容易使得真实数据中参杂很多的噪声,因此对数据进行去噪很有必要。
测井参数曲线是一维的,故用小波的一维信号去噪。含噪的一维信号模型可以表示如下:
k式中s(k)为含噪信号,f(k)为有用信号,e(k)为噪声信号,r为噪声信号的强度系数。s(k)通过小波变换后得到离散细节信号和离散逼近信号,噪声的离散细节信号的幅值和方差随着变换级数的增长而不断减少,对于所有尺度,自噪声的离散细节信号的系数方差随着尺度的增加会有规律地减少,但有用的信号小波变换的平均功率与尺度没有关系。利用这一特性,可选择一阀值,对小波变换后的系数进行处理从而达到降噪目的。
3.2模型建立
将测井曲线的数据进行预处理后,利用小波变换取得低频参数,在利用自适应神经网络算法进行分层,最后给出模型的可靠性和稳定性的分析。
自组织神经网络-小波变换:自组织特征映射(Self-Organization Map,SOM)神经网络就是一种无导师监督学习网络,它通过降维对输入层数据进行反复学习,使连接权矢量的空间分布能够反映输入模式的统计特性。
还有一个待解决的问题是:自组织映射神经网络对数据有很高的灵敏度,但测井分层所关注的是层与层之间的分界点(图1),若将图1的数据输入神经网络,会造成很大的误差,而且图1表示的测井曲线在高频域的系数,也会给神经网络的分层造成很大的影响。
为此,首先采用小波分析对曲线进行N层尺度的分解;然后对N层低频系数进行重构,通过高频滤波器将曲线震荡偏幅厉害的高频段进行过滤,留下信号的近似信号。
3.3模型求解
以一号井为标准井建立自组织神经网络模型。其中网络的输入节点为n=8个,分别对应与选定的8条曲线,对应深度的数据组成一个特征向量,依次出入到神经网络中,对其进行训练。
对一号井进行了足够次数的训练并与实际数据的对比,可以确定数据的小波变换需要分解的层数N和神经网络的学习系数
h(t),以最好地把测井数据的分层体现出来,避免导致系统的不稳定和收敛速度过慢,达不到误差要求。其中选择sym6小波基对一号井参数曲线进行8层的分解和低频系数重构。
4.结论
本文主要应用小波分析与自组织特征神经网络结合的方法,并利用Matlab软件来对物理测井分层进行研究。通过小波分析和自组织特征映射神经网络,从点与类的不同角度,分别对测井数据进行粗划分,然后结合两者的结果,对井层进行更加精确的划分。最后得出的结果显示,两个模型结合,得到优势上的互补,使结果更加符合实际。
参考文献:
[1]冯敬英.测井资料的自动分层和岩性识别[J]成都地质学院学报,1991,18(2):97-102
[2]张辛耘,王敬农,郭彦军.随钻测井技术进展和发展趋势[J] 测井技术,2006,01:10-15+100
关键词:BP神经网络; 遗传算法; 神经网络集成; 人耳识别
中图分类号:TP183文献标识码:B
文章编号:1004-373X(2010)08-0148-03
Application of Neural Network Ensemble Based on Genetic Algorithm in Ear Recognition
CHEN Chun-lan1, ZENG Huang-lin2, XU Li-zhi2
(1. Luzhou Vocational and Technical College, Luzhou 646005, China; 2. Sichuan University of Science & Engineering, Zigong 643000, China)
Abstract:Since the constringency of the BP neural network algorithm is too slow and generalization capability of neural network is not ideal, the disadvantageseffect the classification identification. A method of theneural network ensemble based on the genetic algorithm is introduced for improving the classification accuracy and generalization of neural network, the way which trains several individual BP neural networks, selects those who have great variance each other to perform the neural network ensemble by means of the genetic algorithm, and then carries out the classification identification with the neural network ensemble. The experimental result shows that themethod can improve the identification rate.
Keywords:BP neural network; genetic algorithm; neural network ensemble; ear recognition
传统的BP神经网络虽然具有在线学习,非线性映射能力,不需要精确的数学模型,擅长从输入/输出数据中学习有用的知识,容易实现并行计算,由于神经网络由大量的简单计算单元组成,因而具有易于用软、硬件实现等优点。但是该学习算法是一个非线性优化问题,存在局部极小;BP算法使用的是最速下降法,学习算法的收敛速度很慢;最重要的是网络的泛化能力差。当图像数据较大时,影响分类识别能力。1990年,Hansen和Salamon开创性地提出了神经网络集成(Neural Network Ensemble)方法,通过训练多个神经网络,并将其结果进行合并,显著地提高了神经网络系统的泛化能力[1]。在此,采用Bagging方法训练个体神经网络,用遗传算法选择最优的个体网络用于神经网络集成。实验表明,这种方法可以提高人耳的识别率。
1 基于遗传算法的神经网络集成
1.1 神经网络集成
当神经网络集成用于分类器时,通过Bagging算法训练多个个体神经网络,通常集成的输出由个体网络的输出投票产生,采用绝对多数投票法(某分类成为最终结果,当且仅当有超过半数的神经网络输出结果为该分类),提高网络的泛化能力和分类能力[1]。Bagging算法思想实现过程如图1所示。
图1 Bagging算法思想实现过程
Bagging基本思想如下:
(1) 给定一个弱学习算法和一个训练集;
(2) 单个弱学习算法准确率不高;
(3) 将该学习算法使用多次,得出预测函数序列,进行投票;
(4) 最后结果准确率将得到提高。
Bagging算法:
For t = 1, 2, …, T;
从数据集S中取样(放回选样);
训练得到模型Ht;
对未知样本X分类时,每个模型Ht都得出一个分类,得票最高的即为未知样本X的分类[1]。
1.2 遗传算法用于神经网络集成
当神经网络集成中的个体网络差异较大时,集成的效果较好,但是如何获得差异较大的个体网络以及如何评价多个网络之间的差异度,目前仍然没有较好的方法。Bagging算法通过训练数据的随机性及独立性来提供集成的差异性,尽管这种方法非常流行,但是他的鲁棒性较差,而且当数据量不足时,该方法的执行效果也差[1]。
遗传算法作为一种可以全局收敛的方法,理论上可以在一定的遗传步骤后达到全局或者接近全局最优。这里考虑用遗传算法作为Bagging算法中最终集成权值的优化方法。
假设已经独立训练出N个神经网络f1,f2,…,fN,使用简均方法组成神经网络集成,考虑去除神经网络fN后,由f1,f2,…,fN-1使用简均方法组成神经网络集成′,满足:
ИА(x)=∑N-1i=1\(1)
定义神经网络fi与fjУ南喙囟任:
Cij=∫p(x)\\dx(2)
有Cii=Ei,Cij=Cj。в捎:
И(x)-d(x)=∑Ni=1\/NИ
因此有:
ИE=∑Ni=1∑Nj=1Cij/N2(3)
考虑У姆夯误差E与′的泛化误差E′的大小关系,根据式(3),′У姆夯误差为:
ИE′=∑N-1i=1∑N-1j=1Cij/(N-1)2(4)
(N-1)2N2(E′-E)=(2N-1)∑N-1i=1∑N-1j=1Cij-
2(N-1)2∑N-1i=1CiN-(N-1)2CNN(5)
(2N-1)∑N-1i=1∑N-1j=1Cij
(N-1)2CNN(6)
根据式(5),当式(6)满足时,E′
使用遗传算法来解决神经网络选取的问题。若某遗传个体与{f1,f2,…,fN}的子集S相对应,假设验证集为V,用验证集V 计算的神经网络fi与fjУ南喙囟裙兰浦滴:
ИCVij=∑X∈V\\/|V|(7)
从而根据式(7),与S对应的神经网络集成在验证集V上的平均误差为:
И(∑fi,fj∈SCVij)/|S|2(8)И
将该误差的倒数作为遗传算法的适应度值[2]。
2 基于遗传算法的神经网络集成用于人耳识别
采用Carreira-Perpinan建立的人耳图像库(如图2所示部分人耳图像),该图像包括了17人,每人6幅,共102幅人耳图像[3]。由于该人耳图像库中的所有图像已经经过剪裁和旋转,长宽比例为1∶6(这是由人耳的结构特点决定的,人耳长宽比例的均值大致在1∶6附近),且进行了亮化处理,因此图像较理想,本文不在进行图像的预处理。本实验在Matlab 7.1环境下进行。
图2 Carreira-Perpinan部分人耳图像
2.1 融合特征提取
将图像库中每人前三幅图像组成训练样本集,其余图像组成测试样本集。
采用Zernike矩方法提取的图像具有旋转不变性的人耳几何特征,其稳定性强,有利于分类识别,但是当人耳图像受到其他因素如光照影响时,这种识别率就会降低。改进的非负矩阵分解是将线性判别融入到传统的非负矩阵分解方法中,通过最大化样本类间差异,最小化样本类内差异,提取具有判别能力的低维人耳特征,对光照等不敏感。将这两种具有互补性的特征串性融合,得到一个分类能力更强的特征[4-5]。将15维Zernike矩特征和16维子空间投影系数特征串行组合,得到一个31维的人耳特征向量。
2.2 Bagging算法生成个体网络
本文采用Bagging算法生成个体网络(如图3所示),每次从训练样本集中随机抽取2/3个样本进行训练,得到一个神经网络分类器,神经网络的输入是以上提取的31维人耳特征向量。输出为7维的样本类别向量(1个隐层,6个神经元)。神经网络集成的规模(训练神经网络集成中神经网络的个数)为10。
图3 Bagging算法生成个体神经网络集成
2.3 基于遗传算法的神经网络集成用于人耳识别
个体网络的选择:典型的神经网络集成方法可能生成彼此很相似的个体神经网络,这种网络不一定能够促使集成泛化误差的降低,还可能起到相反的作用。基于遗传算法的神经网络集成方法从训练好的10个BP网络中选择部分网络进行集成。实验中的参数设置:每个遗传个体的染色体长度为10(网络个数为10),遗传算法的群体规模为40,选择概率为0.5,交叉概率为0.8,变异概率为0.05,遗传算法的最大代数为50代,适应度函数选择式(8),精英变异位数量为6,变异范围是全体个体。神经网络的集成,将上步选择的神经网络组成集成,采用投票方法进行结果集成。输入测试样本,训练好的神经网络集成模型进行人耳识别,结果如表1所示。
表1 神经网络集成人耳识别实验结果比较
特征单个BP神经网络分类识别/%基于遗传算法的神经网络集成分类识别/%
融合特征88.394.2
从表1可以知道,使用单一BP神经网络作为分类器的识别率低于采用神经网络集成分类的识别率。
3 结 语
由于单一BP网络的泛化能力差和网络的不稳定,当图像数据较大时,影响分类识别能力。这里介绍了一种基于遗传算法的神经网络集成用于人耳识别,实验结果表明,使用采用神经网络集成可以提高人耳识别率。
参考文献
[1]周志华,陈世福. 神经网络集成[J]. 计算机学报, 2002, 25(1): 1-8.
[2]吴建鑫,周志华,沈学华,等. 一种选择性神经网络集成构造方法[J]. 计算机研究与发展, 2000, 37(9): 1039-1045.
[3]LAMMI H K. Ear biometrics[EB/OL]. \. http: // it. lut. fi/kurssit/03-04/010970000/seminars/Lammi. pdf.
[4]张志伟,夏克文,杨帆,等. 一种改进NMF算法及其在人脸识别中的应用[J]. 光电工程, 2007, 34(8): 121-126.
[5]张伟伟, 夏利民. 基于多特征融合和Bagging神经网络的人耳识别[J]. 计算机应用, 2006, 26(8): 1870-1872.
[6]张兆礼,赵春晖,梅晓丹. 现代图像处理技术及Matlab实现[M]. 北京:人民邮电出版社, 2001.
[7]於时才, 陈涓, 马宁. 一种提高神经网络集成系统泛化能力的方法[J]. 微电子学与计算机, 2009, 26(4): 105-107.
[8]李敏强,寇纪凇,林丹, 等. 遗传算法的基本理论与应用[M]. 北京:科学出版社, 2002.
[9]朱人杰,田雨波,贾则. 混沌搜索神经网络集成求解广义异或分类问题[J]. 微电子学与计算机, 2009, 26(5): 99-102.
[10]刘茂福,胡慧君,何炎祥. 主成分分析在图像Zernike矩特征降维中的应用[J]. 计算机应用, 2007, 27(3): 696-700.
【关键词】数据挖掘技术;RBF神经网络;期货预测
0 引言
期货市场传递的价格信息能比较准确地反映未来供求状况的预期情况及其变动趋势,是市场供求状况的超前反应,对现货市场的波动有着特有的前瞻性。因此,选择有效的期货预测方法来分析和预测期货市场,对保障金融市场的稳定和维护整个经济体系有着重要的作用。由于期货价格的变化是一个非线性的时间序列,因此使用传统的统计方法直接对期货价格进行分析和预测,其预测结果的偏差是比较大[1]。基于神经网络的期货预测研究是神经网络技术在金融领域应用的一个非常重要的方面[2],那是因为RBF神经网络具有大规模并行数据处理以及非线性模拟能力[3]。但是,目前在采用RBF神经网络进行期货预测的众多文献中[4-5],大多的只是单纯使用RBF神经网络对大量数据进行学习、模拟。本文试图通过目前对基于RBF和数据挖掘技术的期货预测的研究现状进行梳理、比较,为期货预测的研究起借鉴和启示意义。
1 我国期货市场现状及发展
1.1 我国期货市场的现状
作为商品流通体制改革、价格市场化的重要产物及市场经济发展的一个重要标致,我国期货市场历经20多年的探索实践,取得了令人瞩目的成绩,在相关产业及国民经济发展中开始发挥越来越重要的作用,尤其是在服务国民经济、促进现代农业的发展、影响国际大宗商品价格等方面中正在成为国家宏观调控的一个抓手。
1.2 我国期货市场的发展趋势
中国的期货市场作为一种新生事物经过十几年的发展,从无到有,并且逐渐走向规划化。回顾从前,我国期货市场的发展可以说是坎坷多难,道路曲折。审视现在,我国的期货市场已进入规范发展的时期,并且正不断地走向成熟。展望未来,我国宏观经济环境良好,长期基础制度建设积累了一定基础,外部环境不断改善,期货市场风险控制能力逐渐加强,同时科学化管理水平稳步提高,这些都为期货市场的健康、快速发展奠定了坚实的基础。
2 数据挖掘简介及RBF神经网络算法概述
2.1 数据挖掘简介
近年来,随着Internet、计算机技术、信息技术和数据库技术的快速发展,计算机在各行各业中的使用也越来越广泛。由此产生的数据,随着时间的积累也越来越多。在这海量的数据中隐藏着许多重要的信息,但是目前的数据库系统却无法发现这些数据的内在联系,更无法根据现有的数据来预测其未来的发展趋势。而数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的一个过程。
2.2 RBF神经网络概述
径向基函数(RBF-Radial Basis Function)神经网络是在80年代末由J.Moody和C.Darken提出的一种神经网络模型,RBF网络是由输入层、隐含层和输出层构成的三层前向网络[7-9],其拓扑结构如图1所示。神经网络信息的传输为:对于输入层,只负责信息的传输。对于隐含层:每个神经元将自己和输入层神经元相连的连接权值矢量 与输入矢量之间的距离乘以本身的阈值作为自己的输入。隐含层神经元采用径向基函数作为激励函数,通常采用高斯函数作为径向基函数。对于输出层,它对输入模式的作用做出响应。由于输入到输出的映射是非线性的,而隐含层空间到输出空间的映射是线性的,从而大大加快学习速度并避免局部极小问题。
图1 RBF神经网络结图
隐含层和输出层采用径向基函数作为激励函数,该径向基函数的一般高斯函数表达式如下式:
由此可知,需要选择合适的权值wi和神经网络中心ci即可实现非线性基函数的线性转换,从而实现从现有数据到未来数据的预测。
3 RBF和数据挖掘技术在期货市场中网络模型的比较
3.1 基于主成分分析的RBF神经网络模型
RBF神经网络模型[11-12]使用基于主成分分析法对原始数据进行降维,再用这些个数较少的新变量作为RBF神经网络的输入进行模拟预测。利用SPSS软件,选择前3个成分作为主成分;同样利用SPSS软件,得到其成分矩阵。然后,设计一个三层的神经网络,输入层有3个神经元,输出层神经元为1个。利用下式对输入、输出值进行标准化,可使得输入、输出值均落在[-1,1]之间。
Xn=2*(x-minx)/(maxx-minx)-1
利用MATLAB的神经网络工具箱中用newrb函数设计这个径向基函数网络,用其做函数逼近时,可自动增加隐含层神经元,直到达到均方误差为止。经过试验,该网络模型的预测误差较小,见图2。
图2 两种方法预测期货后5日均价结果比较
由于主成分之间是相互独立的,所以由各主成分组成的输入空间不存在自相关性,从而有效地简化了RBF神经网络在高维时难以寻找网络中心的问题,提高了预测精度。不过径向基网络本身对扩展速度的选择没有一个固定的标准,不同的值得到的结果又较大的偏差,这是该网络模型的一个缺陷,值得深入地研究。
3.2 基于分段取中心值的RBF神经网络模型
由于RBF神经网络对近似线性时间序列数据预测误差较大,我们提出了一种改进的算法。该算法以分段取中心值算法为依据,使径向基函数中心点值的确定更加合理,从而使近似线性时间序列数据预测的准确度提高。
RBF网络模型[13]的学习过程可分为两步:RBF网络径向基函数的中心与宽度选择,网络输出层和隐含层权值之间的确定。改进的RBF网络模型采用改进的分段取中心值算法来确定RBF网络径向基函数的中心与宽度,同时利用最小二乘法来确定网络输出层和隐含层之间的权值。
最后确定RBF神经网络的权值,再利用MATLAB进行训练、计算。经过述理论分析和期货预测实验结果可以知道,提出的基于分段取中心值算法的 RBF 神经网络在时间序列变化较平缓且近似有规律的小幅度的上升或下降时具有较佳的拟合性能,同时也说明了 RBF 神经网络在期货预测上的准确性和可行性,为短期期货价格的走势提供了参考。
4 结论与讨论
上述研究表明,RBF和数据挖掘技术在期货预测中的应用比较广泛。总结当今神经网络的研究取得的成果,对几种RBF网络模型进行梳理、比较和研究,可以知道RBF和数据挖掘技术对期货交易的短暂的走向可以做出预测。同时,这几种RBF神经网络算法还是存在很多的不足之处,需要更加深入地进行研究,才能对期货交易进行更好地预测,使得期货市场发展的更好,我国的金融市场更加稳定。
【参考文献】
[1]申,申荣华.改进的RBF神经网络对期货价格的预测分析[J].现代商贸工业,2008,11:183-184.
[2]蒋综礼.人工神经网络导论[M].北京:高等教育出版社,2001.
[3]李学桥.神经网络工程应用[M].重庆:重庆大学出版社,1995(24).
[4]高博,王启敢,张艳峰.权证定价中的神经网络方法[J].统计与决策,2010(14).
[5]张秀艳,徐立本.基于神经网络集成系统的股市预测模型[J].系统工程理论践,2003(9).
[6]张屹山,方毅,黄琨.中国期货市场功能及国际影响的实证研究[J].管理世界,2006,04:28-34.
[7]葛哲学,孙志强.神经网络理论语MATABLER2007实现[M].北京:电子工业出版社,2007-09.
[8]刘志杰,季令,叶玉玲,等.基于径向基神经网络的集装箱吞吐量组合预测[J].同济大学学报:自然科学版,2007,35(6).
[9]郑丕谔,马艳华.基于RBF神经网络的股市建模与预测[J].天津大学学报,2006,33(4).
[10]刘书明,苏涛,罗军辉.Tiger SHARC应用系统设计[M].西安:西安电子科技大学出版社,2004.
[11]刘兴彬,万发祥.RBF神经网络主成分分析法在交通预测中的应用[J].山西科教,2001(1):54-56.