首页 > 文章中心 > 神经网络的正则化方法

神经网络的正则化方法

前言:想要写出一篇令人眼前一亮的文章吗?我们特意为您整理了5篇神经网络的正则化方法范文,相信会为您的写作带来帮助,发现更多的写作思路和灵感。

神经网络的正则化方法

神经网络的正则化方法范文第1篇

关键词:BP网络 结构损伤检测 损伤信号指标1 引言

基于BP网络的高层框架结构损伤检测是近年来的一个热门研究课题,它是随着科技的进步、经济的发展和人们认识的提高而发展起来的。传统的建筑结构可靠性是通过结构设计来保障的,但实际上,结构设计很难完全保障建筑结构在使用阶段的可靠性。这是因为在使用阶段建筑结构除承受设计荷载的作用外,随着使用时间的增加,不可避免地发生老化或者受到各种突发性的外界因素(如爆炸、地震、撞击、火灾等)的影响而引起结构的损伤,这些损伤随时间积累,达到一定程度就会影响结构的安全性、适用性和耐久性,甚至发生突发性的失效,严重威胁着人类的生命财产安全。例如,1994年美国的加州大地震,1995年的日本神户大地震和1999年的台湾大地震都使无数的房屋损坏和倒塌,造成人民生命财产的巨大损失。建筑结构损伤的及时检测和修复对于减少人民的生命财产损失具有极其重要的作用。同时,尽早发现结构损伤,可以从很大程度上降低维护维修费用。因此,应建立合理的检测系统以便及时探测到建筑结构损伤出现的位置和程度,及时采取有效措施消除隐患,确保人民的生命财产安全。

人工神经网络广泛涉及土木工程的各个领域,在结构损伤检测中发挥着巨大作用。但神经网络应用在不同结构的理论还不成熟,因此为了将神经网络更好地应用于结构损伤检测中,本文把振动分析方法与人工神经网络结合在一起,解决高层对称框架结构的损伤检测问题。

2 基于BP网络的结构损伤四步检测法

在对高层建筑这样复杂的大型结构体系进行损伤检测时,如果仅仅作为一个力学反问题来考虑,将导致条件的复杂性和解的不唯一性。行之有效的方法是尽量避免直接解力学反问题,基于此本文提出了基于BP网络的结构损伤四步检测法,即损伤的发生、类型、位置和程度分开检测。

第一步:损伤的发生

在这一步,神经网络就像一个报警系统而不是损伤的检测系统。当结构发生损伤时,神经网络就会发出警报。而且不需要结构的模态信息就可以构建、训练和测试神经网络。

在目前的研究中,通过测量系统获得的未损结构的模态参数,即未损结构的前N阶固有频率 作为输入输出向量来训练网络,而不需要其它的结构模态。但是,未损结构的固有频率需要多次测量,而且全部用于网络的训练,这些数据可以通过结构的长期在线监测系统获得。

第二步:损伤类型

建筑结构损伤检测有多种类型,如构件宽度变小、构件高度变小和构件材料的弹性模量变小。前两种类型可以看作是构件有效工作面积的减小,这三种类型都可以看作是构件刚度变小。在该阶段神经网络被用作分类器,获得的基于模态的损伤结构模态用于神经网络的训练。

第三步:损伤位置

对于一些损伤的位置分布,需要建立一个神经网络来精确地确定损伤的具置。在这个网络中,第 个节点的输出值为1或0,它表示该节点是否发生损伤。由于仅仅使用固有频率无法检测对称位置发生的同程度损伤,就选择由损伤信号指标和其它一些参数所组成的组合损伤向量。这个输入向量需要满足两个条件:(a)输入向量的多数参数与损伤程度无关,只与损伤位置有关;(b)输入向量的模态参数都能够从固有频率和第一阶模态的少数几个模态矢量值算出。因为在这一步的目标是确定损伤的位置,所以训练时只需要在所有可能的损伤位置的一种损伤程度的损伤样本,这样就大大地减少了训练样本的数量。

第四步:损伤程度

一般的基于神经网络的结构损伤检测方法,损伤位置和损伤程度通过一步损伤检测法就可以同时检测出来。但是当存在大量的可能损伤位置时,一步损伤检测法需要太多的损伤样本,因为网络在损伤程度的检测时需要在不同的损伤水平下对网络进行训练。本文提出的结构损伤四步检测法就成功解决了这一问题,整个过程使用同样的神经网络模型。在上一步已经检测出损伤的位置,我们只需要在这些损伤的位置上增加一些不同程度的损伤样本,重新学习训练网络即可。

3 神经网络输入参数的选择

研究表明神经网络输入参数的选择及其表达形式会直接影响结构损伤检测的结果。下面分别介绍三种输入参数:仅与损伤位置有关的输入参数,仅与损伤程度有关的输入参数及与损伤位置和程度都有关的输入参数。

3.1 仅与损伤位置有关的输入参数

在已有的结构损伤检测方法中,首先要用神经网络检测损伤的位置,然后再检测损伤的程度。因此必须合理地选择一个仅与损伤位置有关的网络输入参数。

Cawley和Adams [1]证明了两阶频率的变化率仅仅与损伤位置有关而与损伤程度无关。Minski [2]证明了正则化的频率变化率也是一个只与损伤位置有关的输入参数。其中频率的变化率 可以表示为:

正则化的频率变化率 可以表示为:

上面方程中: 和 分别为第i阶固有频率变化比和第i阶正则化的频率变化率,m为实测固有频率的阶数,fui和fdi分别为结构在未损和损伤状态下的模态频率。

Lam [3]等人提出了一个损伤信号指标并且证明了这种指标只与损伤位置有关而与损伤程度无关。这种损伤信号指标被定义为模态振型的变化率与固有频率的变化比,用公式表示为:

而正则化的损伤信号指标可表示为:

上面方程中:fui和fdi的意义同公式(2);{Φui}和{Φdi}分别为结构在未损和损伤状态下的第i阶模态矢量值;DSIi(k)和NDSIi(k)分别为第i阶模态的损伤信号指标和第i阶模态的正则化的损伤信号指标, n为实测模态的阶数;为了方便,一般取n=1、k为实测模态矢量的位置。

上面涉及的模态的选择取决于两个因素:模态数据测量的准确性和该模态对于损伤的敏感性。某一模态对于损伤的敏感性事先并不知道。但是通常认为一阶模态所测量的固有频率最准确。所以采用一阶模态所对应的模态矢量值。然而,如果一阶固有频率的变化太小,就要选择其它振型的模态矢量值。因为一阶固有频率的变化太小,将出现一个很小的分母,而导致计算的损伤信号指标不收敛。在计算固有频率变化之前,必须保证这两套方法所测量的模态矢量值具有同样的标准化形式。当然,计算神经网络的输入向量,不需要完整的模态数据,只需要选择几个点的模态分量就足够了,这样就克服了仅仅用频率的缺陷。

3.2 仅与损伤程度有关的输入参数

姜绍飞[4]给出了仅与损伤程度有关的输入参数:

上式中NFSRi为第i阶固有频率平方的变化比,fui和fdi分别为结构在未损和损伤状态下的模态频率。

3.3 与损伤位置和程度都有关的输入参数

频率的变化率FFCi是与损伤位置和损伤程度都有关的参数。

4 神经网络输入向量的选择

基于以上输入参数的分析,神经网络的输入向量可以设计成组合损伤向量。损伤位置和损伤程度可以用不同的网络结构分别检测。考虑到本文主要解决的是对称结构损伤检测问题,所以在输入向量中一定要包含能够检测对称位置损伤的损伤信号指标。因此,我们可以把损伤信号指标分别与仅与损伤位置有关、仅与损伤程度有关及与损伤位置和程度均有关的输入参数相组合,形成新的能够检测对称损伤的组合损伤向量。本文给出以下几种常用的组合损伤向量。

4.1 检测损伤位置的组合损伤向量

上述组合损伤向量具有以下性质:(a)该输入向量的参数只与损伤的位置有关,而与损伤程度无关;(b)这些输入参数可以通过少数几个模态矢量值,即使是只能获得第一阶的模态矢量值,也是可以的。如果m (n≤m)阶固有频率和n阶模态矢量值在K个测量的自由度 (K=1,2,…,k)可以通过试验获得的话,那么网络的输入节点的数目为(m +nK),网络的输出向量为:

这里, q为所有可能发生的损伤数目;Li∈[0,1],如果Li为零则表示在i点没有损伤,否则,就表示在i点有损伤发生。

4.2 检测损伤程度的组合损伤向量

上述组合损伤向量是把损伤信号指标和仅与损伤程度有关的输入参数组合得到的。网络的输入节点的数目为(2m +nK)。网络的输出向量为:

发生在i点的损伤的程度。

4.3检测损伤位置和程度的组合损伤向量

上述组合损伤向量是把损伤信号指标和与损伤位置和损伤程度均有关的输入参数组合得到的。对该组合损伤向量来说,网络的输入节点的数目为(2m +nK)。网络的输出向量为:

这里, 发生在i点的损伤的程度。

若损伤位置和损伤程度都采用相同的网络结构,输入向量采用(10)式,而输出向量采用下面的公式:

这里, 的意义与公式(7)相同,而E则表示在损伤位置的损伤程度。但是这样求得的损伤程度只是一个粗略的估计,要想知道更准确的损伤程度,就要重新学习训练网络。

5 结束语

本文提出了框架结构损伤检测的新方法―基于BP网络的结构损伤四步检测法。

由于本文只是针对对称框架做了部分工作,对于剪力墙、板等构件可以等效为若干杆件组成的杆件模型进行损伤检测,但是其效果如何还有待于试验验证。同时也有必要加强输入参数的研究并积极寻求精度和敏感性更好的新的神经网络输入参数。

参考文献

[1] P. Cawley and R.D. Adams, The location of deficits in structures from measurements of natural frequencies, Journal of Strain Analysis 14 (1979) 49-57.

[2] P.C. Kaminski, The approximate location of damage through the analysis of natural frequencies with artificial neural networks, Journal of Process Mechanical Engineering 209 (1995) 117-123.

[3] H.F. Lam, J.M. Ko and C.W. Wong, Localization of damaged structural connections based on experiental modal and sensitivity analysis, Journal of Sound and Vibration 210 (1998) 91-115.

神经网络的正则化方法范文第2篇

关键词:物联网;LS-SVM;数据模型

中图分类号:TP393

文献标识码:A

文章编号:1009-3044(2017)10-0145-02

1.引言

前神经网络(feedforwardneuralnetwork),简称前馈网络,是人工神经网络的一种。

2.概念相关概述

2.1前馈人工神经网络现实基础模型

首先,生物神经元模型。人的大脑中有众多神经元,而神经元之间需要神经突触连接,进而构成了复杂有序的神经网络。而神经元主要由树突、轴突和细胞体组成。一个神经元有一个细胞体和轴突,但是却有很多树突。树突是神经元的输入端,用于接受信息,并向细胞体财团对信息。而细胞体是神经元的信息处理中心,能够对信号进行处理。轴突相当于信息输出端口,负责向下一个神经元传递信息;其次,人工神经元。人工神经元的信息处理能力十分有限,但是,由众多人工神经元构成的神经网络系统庞大,具有巨大的潜力,能够解决复杂问题。人工神经网络与生物神经网络具有相似之处,人工神经网络能够从环境中获取知识,并存储信息。前馈人工神经网络主要包括隐含层、输入层和输出层。在前馈人工神经网络中,神经元将信号进行非线性转换之后,将信号传递给下一层,信息传播是单向的。并且,前馈人工神经网络是人们应用最多的网络模型,常见的有BP神经网络、单层感知器、RBF神经网络等模型。

2.2 LS-SVM相关概述

支撑向量机是一种基于统计学习理论的机器学习方法,能够根据样本信息进行非现象映射,解回归问题的高度非现象问题。并且,支撑向量机在解决非线性、局部极小点方问题上有很大的优势。LS-SVM也叫最小二乘支撑向量机,是支撑向量机的一种,遵循支撑向量机算法的结构风险最小化的原则,能够将支撑向量机算法中的不等式约束改为等式约束,进而将二次问题转换为线性方程问题,大大降低了计算的复杂性。并且,LS-SVM在运算速度上远远高于支持向量机。但是,LS-SVM也存在一定的缺点,在计算的过程中,LS-SVM的忽视了全局最优,只能实现局部最优。并且,LS-SVM在处理噪声污染严重的样本时,会将所有的干扰信息都拟合到模型系统中,导致模型的鲁棒性降低。另外,LS-SVM的在线建模算法、特征提取方法以及LS-SVM的支持向量稀疏性都有待改进。

2.3物联网下人工神经网络前馈LS-SVM研究的意义

物联网是互联网技术的发展趋势,为前馈人工神经网络的发展与LS-SVM研究提供了技术保障,在物联网背景下,研究人工神经网络前馈LS-SVM不仅能够创新人工神经网络的计算方法,完善人工神经网络在现实生活中的应用,而且对人们生活的自动化和智能化发展有着重要意义。另外,物联网为人们对LS-SVM的研究提供了条件,在物联网环境下,人们能够运用信息技术深化最小二乘支撑向量机研究,不断提高LS-SVM回归模型的鲁棒性,改进LS-SVM的特征提取方法和在线建模算法,完善计算机学习方法,提升计算机的运算速度。3基于LS―SVM的丢包数据模型

在选择的参数的基础上,运用IS-SVM方法,建立评估模型。本文选用LS-SVM回归方法的原因,SVM优于神经网络的方法主要是以下几点:

首先,了解数据挖掘,数据挖掘前景广阔,SVM是数据挖掘中的新方法。其次,选择合适的数据分析方法根据数据集的大小和特征。小样本训练适合SVM,样本大情况的训练适宜神经网络,这里用SVM。

然后,就是文献使用SVM和PCA建立跨层的评估QOE,实验结果表明主观MOS评分和此评价结果具有很好的一致性。

最后,本文采用SVM基础上的进一步拔高,LS-SVM,比SVM运行快,精确度高。srcl3_hrcl_525.yuv实验素材的特征是具有高清性质。525序列60HZ,帧大小为1440x486字节/帧,625序列50HZ,大小同上。YUV格式是422格式即4:2:2格式的。

时域复杂度的模型如下,视频的时域复杂度σ;编码量化参数是Q;编码速率为R;待定模型的参数为a和b。σ=Q(aR+b)。通过大量的实验和理论分析,得到模型的参数:a=l 260,b=0.003。其中,编码速率和帧率可以看作是视频的固有属性。高清视频编码速率R是512kb/s,最大帧速率为30000/1001=29.97幅,秒。量化参数是根据实验的具体情况确定的。计算σ的值如下所示:当量化参数为31时,σ=19998720.1,当量化参数为10时,σ=6451200.03,当量化参数为5时,σ=3225600.02,当量化参数为62时,σ=39997440.2,当量化参数为100时,σ=64512000.3,当量化参数为200时,σ=129024001,当量化参数为255时,σ=164505601。

对于srcl3网络环境建立考虑网络丢包的视频质量无参评估模型使用LS-SVM方法。

(1)输入x的值。XI是量化参数,X2封包遗失率,X3单工链路速度,X4双工链路速度,X5视频的时域复杂度。等权的参数。

LS-SVM要求调用的参数只有两个gam和sig2并且他们是LS-SVM的参数,其中决定适应误差的最小化和平滑程度的正则化参数是gam,RBF函数的参数是sig2。Type有两种类型,一种是elassfieation用于分类的,一种是function estimation用于函数回归的。

4.机器学习和物联网的结合

物联网中也用到人工智能,人工智能中有机器学习,机器学习中有神经网络。机器学习是人工智能研究的核心问题之一,也是当前人工智能研究的一个热门方向。

神经网络的正则化方法范文第3篇

【关键词】股指期货;股指期货预测;人工神经网络;支持向量机

k提出了支持向量机(Support Vector Machine简称SVM)的概念。它以统计学习理论为基础,是一种建立在VC维和结构风险最小化原则基础上的一种新的机器学习方法。以其完善的理论基础、学习性能和预测性能得到了广泛的关注和应用。

1.支持向量机介绍

支持向量机(SVM)是近几年来一种新的学习方法,与一般神经网络相比,支持向量机算法将转化为一个二次型寻优问题,从理论上讲得到的是全局最优点,可以解决在神经网络中无法避免的局部极小值所出现的问题。支持向量机的拓扑结构由支持向量决定,避免了传统神经网络拓扑结构需要经验试凑的方法,而且SVM的最优求解基于结构风险最小化思想,因此具有比其他非线性函数逼近方法具有更强的泛化能力。

2.原理分析

给定一个数据集作为训练样本,其中是输入变量,是期望值,是数据点的总数。通过训练学习寻求一模式使得样本集不但满足,而且对于样本以外的通过能找出对应的。估计函数为式中:是从输入空间到高维特征空间的非线性映射,为偏置量。根据结构风险最小化原理函数估计问题就是寻找使下面风险函数最小:

=

式中:反映了回归函数的泛化能力,是正则化部分;为惩罚因子;是经验风险(即样本损失函数的累积)。

常用的样本损失函数有二次函数、Huber函数、Laplace函数和不敏感函数等,由于不敏感函数能够忽略范围内的回归误差所以样本损失常由不敏感函数来度量引进不灵敏损失函数,可得到回归支持向量机模型:

常用的核函数是径向基函

式中为核参数。

3.影响期货合约价格因素的分析

在考虑对支持向量机模型进行训练之前,首先要考虑输入因素和输出因素的选取。对于影响股指期货合约价格的变动,从宏观经济条件方面考虑,主要受以下几个因素的影响:宏观经济运行状况、宏观经济政策变化、与标的指数成份股相关的各种信息、国际金融市场走势、股指期货合约到期日、投资者心理的变化等。如果从数据指标方面来看,主要是沪深300股指期货合约的每日基本数据信息,包括:(1)最高价数据;(2)最低价数据;(3)开盘价数据;(4)收盘价数据;(5)总持仓量数据;(6)期货合约成交金额总量;(7)平均价格。本文希望得到的是用训练模型预测期货合约第二天的收盘价。在支持向量机训练学习中,如果训练样本容量过小,将不利于预测精度的控制,就很有可能造成泛化性较差的状况出现。因而本文采用模拟仿真交易历史数据中一年的沪深3OO股指期货第一季月IFSC3合约相关数据,数据区间为2008年12月11日至2009年12月18日,共238个交易数据。

4.数据的预处理与误差分析

由于获取的样本数据的单位不同,如成交金额的单位是万元,开盘价的单位是点,持仓总数的单位是手,这三者的数据属性都是不同的,为了将从沪深3OO指数期货市场获得的数据转化为让模型接受的输入形式,本文对选取的数据进行预处理,采用对同类别组的数据归一化的方法,其过程是用同组类别的每一个值分别减去该组中的最小值,再除以该组最大值与最小值之差,使之归一化。例如设同组数据为。

则归一化函数为:

其中:

5.结论分析

通过不断训练,最后我们得到了高精度的支持向量机模型。最后我们对以上思路进行Matlab编程,利用Matlab7.0软件对样本数据进行实证研究。将训练样本数据的6个变量输入到我们训练好的模型中,会得到一个预测值,将第二天的期货收盘价格预测值对比真实的第二天的期货结算价格,可以观察其问的误差大小。其结果如图3所示。

通过训练得到支持向量机的预测模型,对通过2009年11月19日的开盘价,最高价,最低价,平均价,成交量,持仓量,收盘价对11月20日的收盘价进行预测,通过分析得到3969.6,而真实值为3999,相对误差仅仅为0.74%。

参考文献

[1]胡莹.基于支持向量机的证券投资风险管理研究[D].西安电子科技大学,2010,1.

神经网络的正则化方法范文第4篇

过去10年,人们对机器学习的兴趣激增。几乎每天,你都可以在各种各样的计算机科学课程、行业会议、华尔街日报等等看到有关机器学习的讨论。在所有关于机器学习的讨论中,许多人把机器学习能做的事情和他们希望机器学习做的事情混为一谈。从根本上讲,机器学习是使用算法从原始数据中提取信息,并在某种类型的模型中表示这些信息。我们使用这个模型来推断还没有建模的其他数据。

神经网络是机器学习的一种模型,它们至少有50年历史了。神经网络的基本单元是节点(node),基本上是受哺乳动物大脑中的生物神经元启发。神经元之间的连接也以生物的大脑为模型,这些连接随着时间的推移而发展的方式是为“训练”。

在20世纪80年代中期和90年代初期,许多重要的架构进步都是在神经网络进行的。然而,为了得到好的结果需要大量时间和数据,这阻碍了神经网络的采用,因而人们的兴趣也减少了。在21世纪初,计算能力呈指数级增长,计算技术出现了“寒武纪大爆发”。在这个10年的爆炸式的计算增长中,深度学习成为这个领域的重要的竞争者,赢得了许多重要的机器学习竞赛。直到2017年,这种兴趣也还没有冷却下来;今天,我们看到一说机器学习,就不得不提深度学习。

作者本人也注册了Udacity的“Deep Learning”课程,这门课很好地介绍了深度学习的动机,以及从TensorFlow的复杂和/或大规模的数据集中学习的智能系统的设计。在课程项目中,我使用并开发了用于图像识别的卷积神经网络,用于自然语言处理的嵌入式神经网络,以及使用循环神经网络/长短期记忆的字符级文本生成。

本文中,作者总结了10个强大的深度学习方法,这是AI工程师可以应用于他们的机器学习问题的。首先,下面这张图直观地说明了人工智能、机器学习和深度学习三者之间的关系。

人工智能的领域很广泛,深度学习是机器学习领域的一个子集,机器学习又是人工智能的一个子领域。将深度学习网络与“经典的”前馈式多层网络区分开来的因素如下:

比以前的网络有更多的神经元更复杂的连接层的方法用于训练网络的计算机能力的“寒武纪大爆炸”自动特征提取

这里说的“更多的神经元”时,是指神经元的数量在逐年增加,以表达更复杂的模型。层(layers)也从多层网络中的每一层都完全连接,到在卷积神经网络中层之间连接局部的神经元,再到在循环神经网络中与同一神经元的循环连接(recurrent connections)。

深度学习可以被定义为具有大量参数和层的神经网络,包括以下四种基本网络结构:

无监督预训练网络卷积神经网络循环神经网络递归神经网络

在本文中,主要介绍后三种架构。基本上,卷积神经网络(CNN)是一个标准的神经网络,通过共享的权重在空间中扩展。CNN设计用于通过内部的卷积来识别图像,它可以看到图像中待识别的物体的边缘。循环神经网络(RNN)被设计用于识别序列,例如语音信号或文本。它的内部有循环,这意味着网络上有短的记忆。递归神经网络更像是一个层级网络,在这个网络中,输入必须以一种树的方式进行分层处理。下面的10种方法可以应用于所有这些架构。

1.反向传播

反向传播(Back-prop)是一种计算函数偏导数(或梯度)的方法,具有函数构成的形式(就像神经网络中)。当使用基于梯度的方法(梯度下降只是方法之一)解决优化问题时,你需要在每次迭代中计算函数梯度。

对于神经网络,目标函数具有组合的形式。如何计算梯度呢?有两种常用的方法:(i)解析微分(Analytic differentiation)。你已经知道函数的形式,只需要用链式法则(基本微积分)来计算导数。(ii)利用有限差分进行近似微分。这种方法在计算上很昂贵,因为函数值的数量是O(N),N指代参数的数量。不过,有限差分通常用于在调试时验证back-prop实现。

2.随机梯度下降法

一种直观理解梯度下降的方法是想象一条河流从山顶流下的路径。梯度下降的目标正是河流努力达到的目标——即,到达最底端(山脚)。

现在,如果山的地形是这样的,在到达最终目的地之前,河流不会完全停下来(这是山脚的最低点,那么这就是我们想要的理想情况。)在机器学习中,相当从初始点(山顶)开始,我们找到了解决方案的全局最小(或最佳)解。然而,可能因为地形的性质迫使河流的路径出现几个坑,这可能迫使河流陷入困境。在机器学习术语中,这些坑被称为局部极小值,这是不可取的。有很多方法可以解决这个问题。

因此,梯度下降很容易被困在局部极小值,这取决于地形的性质(用ML的术语来说是函数的性质)。但是,当你有一种特殊的地形时(形状像一个碗,用ML的术语来说,叫做凸函数),算法总是保证能找到最优解。凸函数对ML的优化来说总是好事,取决于函数的初始值,你可能会以不同的路径结束。同样地,取决于河流的速度(即,梯度下降算法的学习速率或步长),你可能以不同的方式到达最终目的地。这两个标准都会影响到你是否陷入坑里(局部极小值)。

3.学习率衰减

根据随机梯度下降的优化过程调整学习率(learning rate)可以提高性能并减少训练时间。有时这被称为学习率退火(learning rate annealing)或自适应学习率(adaptive learning rates)。训练过程中最简单,也是最常用的学习率适应是随着时间的推移而降低学习度。在训练过程开始时使用较大学习率具有进行大的改变的好处,然后降低学习率,使得后续对权重的训练更新更小。这具有早期快速学习好权重,后面进行微调的效果。

两种常用且易于使用的学习率衰减方法如下:

逐步降低学习率。在特定的时间点较大地降低学习率。

4 . Dropout

具有大量参数的深度神经网络是非常强大的机器学习系统。然而,过拟合在这样的网络中是一个严重的问题。大型网络的使用也很缓慢,这使得在测试时将许多不同的大型神经网络的预测结合起来变得困难。Dropout是解决这个问题的一种方法。

Dropout的关键想法是在训练过程中随机地从神经网络中把一些units(以及它们的连接)从神经网络中删除。这样可以防止单元过度适应。在训练过程中,从一个指数级的不同的“稀疏”网络中删除一些样本。在测试时,通过简单地使用一个具有较小权重的单一网络,可以很容易地估计所有这些“变瘦”了的网络的平均预测效果。这显著减少了过拟合,相比其他正则化方法有了很大改进。研究表明,在视觉、语音识别、文档分类和计算生物学等监督学习任务中,神经网络的表现有所提高,在许多基准数据集上获得了state-of-the-art的结果。

5. Max Pooling

最大池化(Max pooling)是一个基于样本的离散化过程。目标是对输入表示(图像,隐藏层输出矩阵等)进行下采样,降低其维度,并允许对包含在分区域中的特征进行假设。

这在一定程度上是为了通过提供一种抽象的表示形式来帮助过拟合。同时,它通过减少学习的参数数量,并为内部表示提供基本的平移不变性(translation invariance),从而减少计算成本。最大池化是通过将一个最大过滤器应用于通常不重叠的初始表示的子区域来完成的。

6.批量归一化

当然,包括深度网络在内的神经网络需要仔细调整权重初始化和学习参数。而批量标准化有助于实现这一点。

权重问题:无论权重的初始化如何,是随机的也好是经验性的选择也罢,都距离学习到的权重很遥远。考虑一个小批量(mini batch),在最初时,在所需的特征激活方面将会有许多异常值。

深度神经网络本身是有缺陷的,初始层中一个微小的扰动,就会导致后面层巨大的变化。在反向传播过程中,这些现象会导致对梯度的分散,这意味着在学习权重以产生所需输出之前,梯度必须补偿异常值,而这将导致需要额外的时间才能收敛。

批量归一化将梯度从分散规范化到正常值,并在小批量范围内向共同目标(通过归一化)流动。

学习率问题:一般来说,学习率保持较低,只有一小部分的梯度校正权重,原因是异常激活的梯度不应影响学习的激活。通过批量归一化,减少异常激活,因此可以使用更高的学习率来加速学习过程。

7.长短时记忆

LSTM网络在以下三个方面与RNN的神经元不同:

能够决定何时让输入进入神经元;能够决定何时记住上一个时间步中计算的内容;能够决定何时让输出传递到下一个时间步长。

LSTM的优点在于它根据当前的输入本身来决定所有这些。所以,你看下面的图表:

当前时间标记处的输入信号x(t)决定所有上述3点。输入门从点1接收决策,遗忘门从点2接收决策,输出门在点3接收决策,单独的输入能够完成所有这三个决定。这受到我们的大脑如何工作的启发,并且可以基于输入来处理突然的上下文/场景切换。

8. Skip-gram

词嵌入模型的目标是为每个词汇项学习一个高维密集表示,其中嵌入向量之间的相似性显示了相应词之间的语义或句法相似性。Skip-gram是学习单词嵌入算法的模型。

Skip-gram模型(以及许多其他的词语嵌入模型)的主要思想是:如果两个词汇项(vocabulary term)共享的上下文相似,那么这两个词汇项就相似。

换句话说,假设你有一个句子,比如“猫是哺乳动物”。如果你用“狗”去替换“猫”,这个句子仍然是一个有意义的句子。因此在这个例子中,“狗”和“猫”可以共享相同的上下文(即“是哺乳动物”)。

基于上述假设,你可以考虑一个上下文窗口(context window,一个包含k个连续项的窗口),然后你跳过其中一个单词,试着去学习一个能够得到除跳过项外所有项的神经网络,并预测跳过的项是什么。如果两个词在一个大语料库中反复共享相似的语境,则这些词的嵌入向量将具有相近的向量。

9.连续词袋(Continuous Bag Of Words)

在自然语言处理问题中,我们希望学习将文档中的每个单词表示为一个数字向量,使得出现在相似的上下文中的单词具有彼此接近的向量。在连续的单词模型中,我们的目标是能够使用围绕特定单词的上下文并预测特定单词。

我们通过在一个庞大的语料库中抽取大量的句子来做到这一点,每当我们看到一个单词时,我们就会提取它周围的单词。然后,我们将上下文单词输入到一个神经网络,并预测位于这个上下文中心的单词。

当我们有成千上万的这样的上下文单词和中心词以后,我们就有了一个神经网络数据集的实例。训练神经网络,最后编码的隐藏层输出表示特定单词的嵌入。而当我们对大量的句子进行训练时也能发现,类似语境中的单词得到的是相似的向量。

10.迁移学习

神经网络的正则化方法范文第5篇

关键词:最小二乘支持向量机;模糊核聚类;集成学习;短期负荷预测

中图分类号: TP273

文献标志码:A

Support vector machine ensemble model based on KFCM and its application

ZHANG Na1,2,ZHANG Yongping1

1.College of Computer,China University of Mining and Technology,Xuzhou Jiangsu 221116,China;

2.College of Computer,Suqian Higher Normal School,Suqian Jiangsu 223800,China

)

Abstract: To further enhance the regression prediction accuracy of support vector machine, a Least Squares Support Vector Machine (LSSVM) ensemble model based on Kernel Fuzzy CMeans clustering (KFCM) was proposed. The KFCM algorithm was used to classify LSSVMs trained independently by its output on validate samples, the generalization errors of LSSVMs in each category to the validate set were calculated of the LSSVM whose error was minimum would be selected as the representative of its category, and then the final prediction was obtained by simple average of the predictions of the component LSSVM. The experiments in shortterm load forecasting show the proposed approach has higher accuracy.

Key words: Least Squares Support Vector Machine (LSSVM);Kernel Fuzzy CMeans clustering (KFCM);ensemble learning;shortterm load forecasting

0 引言

支持向量机( Support Vector Machine, SVM) [1]以统计学习理论为基础, 采用结构风险最小化准则和VC维理论, 根据有限数据信息在模型的复杂度和学习能力之间寻找最佳折中, 从而获得最好的推广能力, 能够较好地解决小样本、非线性、高维数和局部极小点等问题。最小二乘支持向量机[2] (Least Squares Support Vector Machine, LSSVM)对传统支持向量机进行改进,提高了求解问题的速度和收敛精度。但在实际应用中,最小二乘支持向量机的训练和泛化性能受到正则化参数Е锚Ш秃丝矶泉Е要取值的影响。集成学习可以通过简单地训练多个学习机(如神经网络、支持向量机等)并将其结果进行结合,从而有效地提高学习系统的泛化能力[3]。现有理论研究表明[4-5],对集成的个体进行必要的选择能够有效地降低神经网络集成的泛化误差。为了更好地解决SVM的模型选择问题,本文提出了一种模糊核聚类最小二乘支持向量机集成模型,并将其应用于短期电力负荷预测中。实验结果表明,该方法可以有效地提高短期电力负荷预测的精确度,具有更好的泛化性能。

1 最小二乘支持向量机的原理

LSSVM[2,6]是对SVM的一种改进,它将传统SVM中的不等式约束改为等式约束,且将误差平方和损失函数作为训练集的经验损失,这样就把解二次规划问题转化为求解线性方程组问题,从而提高了求解问题的速度和收敛精度。

设给定训练样本集{xk,yk}(k=1,…,N),xkRn,ykR,利用非线性映射φ(•)将输入空间映射为高维特征空间,再进行最优线性回归,对未知函数进行回归估计可表达为:

y(x)=wTφ(x)+b (1)

式中权向量wRn,偏置量bR。这样构造的函数y(x)可使得对于样本集之外的输入x,也能精确地估计出相应的输出y。LSSVM定义优化问题为:

И┆minw,b,e J(w,e)=wTw/2+γ∑Nk=1e2k/2; γ>0 (2)

s.t.yk=wTφ(xk)+b+ek,k=1,2,…,Nお

式中:в呕目标函数J的第1、2项分别控制模型的复杂度和误差的范围;γ为正则化参数(处罚因子);ek为不敏感损失函数的松弛因子。

引入Lagrange函数L求解式(2)的优化问题,即:オ

L(w,b,e,a)=J(w,e)-∑Nk=1ak[wTφ(xk)+b+ek-yk] (3)

式中ak为Lagrange乘子。根据KKT最优条件,可得到此优化问题的解析解为:

ba=01Tお1TΩ+γ-1I-10y (4)

其中,y=[y1, y2,…, yN]T;1=[1,…,1]┆T;a=[a1, a2,…, aN]T;I为N×N的单位矩阵;Ω为方阵,其第k列l行的元素为Ωkl =φ(xk)Tφ(xl) = K(xk, xl),K(•,•)为核函数,它为满足Mercer条件的任意对称函数。这样,不需要知道非线性变换的具体形式,就可用核函数来实现算法的线性化。本文采用高斯径向基函数(Radical Basis Function,RBF)为核函数,其表达式为:

K(xk,xl)=exp(-|xk-xl|2/(2σ2)) (5)

式中Е要为核宽度,反映了边界封闭包含的半径。

式(4)的线性系统可用最小二乘算法求解出b和a,再由式(3)进一步求出w,Т佣得到训练数据集的非线性逼近为:

y(x)=∑Nk=1akK(x,xk)+b (6)

从式(6)可知,SVM回归可用3层的网络结构来表示,其中输入层、б层和输出层的节点数分别为n、N和1,而输入层与隐层之间、隐层与输出层之间的连接权值分别为1和ak。

在实际应用中,最小二乘支持向量机的训练和泛化性能受到正则化参数Е锚Ш秃丝矶泉Е要取值的影响,迫切需要一种切实可行的方法来进一步提高LSSVM预测的精确度和稳定性。

┑1期 拍鹊:模糊核聚类支持向量机集成模型及应用

┆扑慊应用 ┑30卷

2 基于KFCM的LSSVM集成

2.1 模糊核聚类算法(KFCM)

KFCM算法的基本思想是利用非线性映射Е(*)把输入模式向量空间变换到一个高维特征空间,然后在该特征空间采用模糊c均值算法,Ф员浠缓蟮奶卣飨蛄喀(xi)进行模糊聚类分析[7-8]。它能够突出不同类别样本特征的差异,使得原来线性不可分的样本点在核空间中变得线性可分,从而实现更为准确的聚类。オ

假设输入空间的样本X={x1, x2,…, xn},X Rp,通过一个非线性映射Е:χFЫ输入空间Е直浠恢粮呶特征空间F,c为预定的类别数目,vi (i=1,2,…,c)为第i个聚类的中心,uik(i=1,2,…,c; k=1,2,…,n)是第k个样本对第i类的隶属度函数,且0≤uik≤1Ъ蔼0

Jm(U,v)=∑ci=1∑nk=1umikΦ(xk)-Φ(vi)2 (7)

式中,U={uik},v={v1, v2,…, vc},m>1为加权指数,其约束为:オ

Аci=1uik=1; k=1,2,…,n (8)

Фㄒ搴撕数K(x, y),满足K(x, y)=Φ(x)TΦ(y),KFCM聚类的准则是求目标函数的极小值。根据Lagrange乘子寻优法,式(7)所示目标函数的最小值可由式(9)、(10)求得:

uik=(1/(K(xk,xk)+K(vi,vi)-2K(xk,vi)))1m-1∑cj=1(1/(K(xk,xk)+K(vj,vj)-2K(xk,vj)))1m-1 (9)

vi=∑nk=1umikK(xk,vi)xk∑nk=1umikK(xk,vi)(10)

综上所述,KFCM算法的步骤如下:

步骤1 设定聚类数目c和参数m;

步骤2 С跏蓟各个聚类中心vi;

步骤3 重复下面的运算,直到各个样本的隶属度值稳定:1)用当前的聚类中心根据式(9)更新隶属度;2)用当前的聚类中心和隶属度根据式(10)更新各个聚类中心。本文中选择高斯径向基核函数。

2.2 LSSVM模糊核聚类集成

选择性集成的方法能够取得比用全部个体集成更好的泛化性能[4],本文采用模糊核聚类集成[9]的方法来解决集成中个体LSSVM的选取问题。

首先用KFCM算法对相互独立训练出的mЦLSSVM个体进行分类,然后计算所有类别中每个个体LSSVM在独立验证集上的泛化误差,最后分别选取每个类别中平均泛化误差最小的LSSVM个体作为这一类的代表进行简均法集成。具体实现步骤如下:

步骤1 Ыm个LSSVM个体对每个独立验证样本的输出按照相同的顺序以列向量的形式存放到输出矩阵O中;

步骤2 а窬劾嗍目c并设定加权指数m,ФLSSVM的输出矩阵O进行模糊核聚类分析并可以得到隶属度矩阵U;オ

步骤3 Ц据隶属度矩阵U,Э傻妹扛LSSVM对所有c个类别的隶属度的最大值,然后将相应的LSSVM归入具有隶属度最大值的类别;

步骤4 计算每一类中的所有LSSVM个体在验证集上的平均泛化误差,将每一类中平均泛化误差最小的LSSVM个体选择出来;

步骤5 给定阈值Е,г诿扛隼啾鹬械淖罴迅鎏LSSVM中选择平均泛化误差小于Е霜У母鎏骞钩勺钪盏募成个体;

步骤6 将最终选择出的个体LSSVM对测试样本的输出经简均法得到集成的最终输出。

该方法既能够保证最终集成中的个体LSSVM具有较高的精确度,而且也同时保证了个体之间具有较大的差异度,相关的理论研究表明[4, 9],这种集成方法可以进一步地提高集成学习的泛化能力。

3 短期负荷预测实例分析

短期负荷预测对制定发电调度计划、确定燃料供应计划及合理安排机组检修计划等均有重要指导作用,其预测的精确性极大地影响着供电部门的经济效益。本文采用我国南方某电网2006年7月5日到8月10日的整点有功负荷值,在负荷预测日的前一天中,每隔2小时对电力负荷进行一次测量,这样一来,一天共测得12组负荷数据。由于负荷值曲线相邻的点之间不会发生突变,因此后一时刻的值必然和前一时刻的值有关,除非出现重大事故等特殊情况。所以这里将前一天的实时负荷数据作为LSSVM的样本数据。此外,由于电力负荷还与环境因素有关,因此,还需要通过天气预报等手段获得预测日的最高气温、最低气温和天气特征值,其中0表示晴天,0.5表示阴天和1表示雨天。这里将电力负荷预测日当天的气象特征数据也作为LSSVM的输入变量。因此,输入变量就是一个15维的向量。目标向量就是预测日当天的12个负荷值,这样输出变量就是一个12维的向量。获得输入和输出变量后,要对其进行归一化处理,将数据处理为区间为[0, 1]的数据,归一化方法有很多种形式,本文采取如下方法:

=x-x┆minx┆max-x┆min(11)

LSSVM中的正则化参数Е锚Х直鹑100、300、500、700和900,而核宽度Е要Х直鹑0.25、0.5、0.75和1,这样组合起来就有20个参数不同的LSSVM进行学习。然后用7月5日到8月3日共30天的负荷及天气数据对这20个LSSVM进行训练;再用训练好的LSSVM对8月4日到8月9日这6天的负荷数据进行验证,并根据输出的预测结果对LSSVM进行聚类分析,在KFCM算法中,Ь劾嗍目c取5,参数m取为2,算法停止的条件为相邻迭代步数间的隶属度值的差的绝对值小于0.001,初始聚类中心取为0到1间的随机数,其中核函数选用高斯核函数,并取Е要=32;最后,将最佳的5个LSSVM对8月10日的预测输出经简均法得到集成的最终输出。运行结果如图1所示。可以看出,本文方法取得了很好的预测效果,最终的预测均方误差为7.651B7e-004,而KFCM算法中所选择的5个最佳LSSVM的预测均方误差分别为7.690B6e-004、7.717B3e-004、7.689B5e-004、7.705B1e-004和7.662B2e-004。图2所示为预测误差曲线。

图片

图1 实际负荷和LSSVM集成预测负荷

图片

图2 LSSVM集成预测误差曲线

将LSSVM的参数采用随机选取的方法,即正则化参数Е锚У娜≈捣段为[0, 1B000],核宽度Е要У娜≈捣段为[0, 1],在上述范围内随机选取20个LSSVM进行训练,仍然采用本文方法进行预测,多组实验结果表明,其最终的预测均方误差也不超过7.85e-004。表1所示为几种方法进行比较的结果。

表格(有表名)

表1 三种方法平均预测误差的比较