首页 > 文章中心 > 模式识别

模式识别

前言:想要写出一篇令人眼前一亮的文章吗?我们特意为您整理了5篇模式识别范文,相信会为您的写作带来帮助,发现更多的写作思路和灵感。

模式识别

模式识别范文第1篇

关键词:模式;模式识别;模式识别的应用

1 引言

人们在观察事物或现象的时候,常常要根据一定需求寻找观察目标与其他事物或现象的相同或不同之处,并在此特定需求下将具有相同或相似之处的事物或现象组成一类。例如字母‘A’、‘B’、‘a’、‘b’,如果从大小写上来分,会将‘A’、‘B’ 划分为一类,‘a’、‘b’划分为另一类;但是如果从英文字母发音上来分,则又将‘A’、‘a’划分为一类,而‘B’、‘b’则为另一类。人们也可以正确地区分出它们,并根据需要将它们进行准确归类,当然, 前提条件是人们需要对‘A’、‘B’、‘a’、‘b’一般的书写格式、发音方式等有所了解。人脑的这种思维能力就构成了“模式识别”的概念。那么,什么是模式?什么是模式识别呢?

2 模式和模式识别

从以上的例子可以看出,对字符的准确识别首先需要在头脑中对相应字符有个准确的认识。当人们看到某物或现象时,人们首先会收集该物体或现象的所有信息,然后将其行为特征与头脑中已有的相关信息相比较,如果找到一个相同或相似的匹配,人们就可以将该物体或现象识别出来。因此,某物体或现象的相关信息,如空间信息、时间信息等,就构成了该物体或现象的模式。Watanabe定义模式“与混沌相对立,是一个可以命名的模糊定义的实体”。比如,一个模式可以是指纹图像、手写草字、人脸、或语言符号等。广义地说,存在于时间和空间中可观察的事物,如果可以区别它们是否相同或相似,都可以称之为模式;狭义地说,模式是通过对具体的个别事物进行观测所得到的具有时间和空间分布的信息;把模式所属的类别或同一类中模式的总体称为模式类(或简称为类)。模式识别则是在某些一定量度或观测基础上把待识模式划分到各自的模式类中去。计算机模式识别就是是指利用计算机等装置对物体、图像、图形、语音、字形等信息进行自动识别。

模式识别的研究主要集中在两方面,一是研究生物体( 包括人) 是如何感知对象的,二是在给定的任务下,如何用计算机实现模式识别的理论和方法。前者是生理学家、心理学家、生物学家、神经生理学家的研究内容,属于认知科学的范畴;后者通过数学家、信息学专家和计算机科学工作者近几十年来的努力,已经取得了系统的研究成果。

3模式识别的方法

现在有两种基本的模式识别方法,即统计模式识别方法和结构(句法)模式识别方法。统计模式识别是对模式的统计分类方法,即结合统计概率论的贝叶斯决策系统进行模式识别的技术,又称为决策理论识别方法。利用模式与子模式分层结构的树状信息所完成的模式识别工作,就是结构模式识别或句法模式识别。

4.模式识别的应用

经过多年的研究和发展,模式识别技术已广泛被应用于人工智能、计算机工程、机器学、神经生物学、医学、侦探学以及高能物理、考古学、地质勘探、宇航科学和武器技术等许多重要领域,如语音识别、语音翻译、人脸识别、指纹识别、手写体字符的识别、工业故障检测、精确制导等。模式识别技术的快速发展和应用大大促进了国民经济建设和国防科技现代化建设。

4.1 字符识别

字符识别处理的信息可分为两大类:一类是文字信息,处理的主要是用各国家、各民族的文字( 如: 汉字,英文等)书写或印刷的文本信息,目前在印刷体和联机手写方面技术已趋向成熟,并推出了很多应用系统;另一类是数据信息,主要是由阿拉伯数字及少量特殊符号组成的各种编号和统计数据,如:邮政编码、统计报表、财务报表、银行票据等等,处理这类信息的核心技术是手写数字识别。

4.2 语音识别

语音识别技术技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。近年来,在生物识别技术领域中,声纹识别技术以其独特的方便性、经济性和准确性等优势受到世人瞩目,并日益成为人们日常生活和工作中重要且普及的安全验证方式。而且利用基因算法训练连续隐马尔柯夫模型的语音识别方法现已成为语音识别的主流技术。该方法在语音识别时识别速度较快,也有较高的识别率。

4.3 指纹识别

我们手掌及其手指、脚、脚趾内侧表面的皮肤凹凸不平产生的纹路会形成各种各样的图案。而这些皮肤的纹路在图案、断点和交叉点上各不相同,是唯一的。依靠这种唯一性,就可以将一个人同他的指纹对应起来,通过比较他的指纹和预先保存的指纹进行比较,便可以验证他的真实身份。一般的指纹5个大的类别:左旋型(leftloop),右旋型(right loop),双旋型(twinloop),螺旋型(whorl),弓型(arch)和帐型(tented arch),这样就可以将每个人的指纹分别归类,进行检索。指纹实现的方法有很多,大致可以分为4 类:基于神经网络的方法、基于奇异点的方法、语法分析的方法和其他的方法。

4.4细胞识别

细胞识别是最近在识别技术中比较热门的一个话题。以前,对疾病的诊断仅仅通过表面现象,经验在诊断中起到了主导作用,错判率始终占有一定的比例;而今,通过对显微细胞图像的研究和分析来诊断疾病,不仅可以了解疾病的病因、研究医疗方案,还可以观测医疗疗效。如果通过人工辨识显微细胞诊断疾病也得不偿失,费力费时不说,还容易耽误治疗。基于图像区域特征,利用计算机技术对显微细胞图像进行自动识别愈来愈受到大家的关注,并且现在也获得了不错的效果。但实际中,细胞的组成是复杂的,应该选择更多的特征,建立更为完善的判别函数,可能会进一步提高分类精度。

参考文献:

[1] 边肇祺,张学工等编著. 《模式识别》(第二版). 北京:清华大学出版社,2000.

[2] 王碧泉,陈祖荫. 《模式识别理论、方法和应用》. 北京:地震出版社,1989.

模式识别范文第2篇

在科学技术飞速发展的今天,电气设备已经融入各个领域,电气设备故障诊断成为热门话题。本文介绍了电气设备运行中常见的故障种类及模式识别技术,并从技术实践的角度探讨了电气故障排除应遵循的步骤,总结了电气设备故障分析常用的处理方法,以对相关工作有所帮助。

关键词:

电气设备;常见故障;故障诊断

在实际生活中,尽管已经学会了一些基本的电气故障诊断的方法并能够加以应用,但设备在实际工作中总会出现一些意外,此时应该高效而精确的找到故障的原因,并及时对此施以解决方法。在实际环境中,某些电气故障的原因很难查询,并且给予解决问题的时间有限,通常只会用基本的测量仪器进行简单的检查,想快速精准的解决问题并不容易。因此,对电气故障做深入研究就显得十分重要。

1电气设备故障的类型及其诊断分析

想要识别电气设备故障的类型并排除故障,应熟悉建筑物内主要电气设备的组成、各部分的功能和控制系统的运行机理,在发生建筑电气设备故障时,再进一步分析发生故障的系统[1]。在检查电气设备故障时应检查各器件有没有损伤,设备工作或放置的环境是否过于潮湿,温度是否符合规范;要借助有关设备对电气设备进行细致的检查分析;根据故障的各种信息,结合相关知识,找到故障的根源。电气故障一般可分为2类:显性故障。例如接触器线圈温度过高、冒烟、接头有所松动以及发出异常声音等,这些问题都很容易使人发现;隐性故障,由于隐形故障体现在设备表面上的现象并不多,所以也不容易被发现,而隐形故障主要是存在于控制电路的故障。比如因为对电气设备进行了不适当的安装、维护,造成线路中的触头及接线头接触不良、小设备的损坏和缺失,甚至是导线老化,这些都能成为引发线路故障的起因。一般来说电气线路越复杂类似的故障出现的概率便越高[2]。这类故障虽然看似微不足道,却是最容易发生并被忽视的,又因为这种故障的特征和外在迹象直接传达给工作人员的线索较少,最终能精准地推断出故障的来龙去脉所花费的时间还是过长。因此借助各种测量工具和仪器成为了解决问题的必要条件。这类问题一般只要找到故障点,通过简单的调整就能使设备正常工作,所以能否找到故障点成为了关键[3]。

2电气控制电路的故障诊断与分析

电气控制电路的故障主要有电源故障、线路故障以及元器件故障。

2.1电源故障分析电源的正常工作是顺利保证其他所有电气设备正常工作十分必要的条件。如果电源存在故障,则电路必然不能正常运行,甚至可能损坏设备。电源的类型并不是统一的,一种类型的电源有着与其他电源相区别的性能参数,所以电源的故障类型也是各种各样的。每一用电设备对与自身相匹配的电源参数都有其独特的要求,这就为寻找电源故障的过程带来些不便。不符合相关要求的电源参数,会使电源产生故障。在电气系统的运行过程中,如果此时电源的参数不稳定,例如电压、电流时大时小,频率忽高忽低等,这些都极易使电气设备产生故障。要想找到这种故障,只需用相关设备进行仔细测量即可。但某些故障查找起来则有些难度,比如波形失真、相位错位、频率稳定度、谐波分量等参数,则需凭借更复杂更精密的设备方能对故障进行有效的判断。

2.2线路故障分析线路故障分为导线故障和导线连接部分故障。导线绝缘皮过度老化或导线破损断裂均可引起导线故障。如果连接处发生了氧化、松动、移位甚至脱落,则极易引发导线连接部分故障。发生线路故障时,控制电路会变得很不稳定,会出现时断时续、接触不良等现象。接触不良是一种常见又很麻烦的故障,插件松动、接点表面氧化、焊接不良、接触簧片弹性退化等都是导致线路发生接触不良的原因[4]。正因为这些故障源头太细小,所以这种故障初期都很难被发现。

2.3元器件故障分析关于元器件的故障可分为2类:元器件损坏故障;元器件性能变差导致的故障。元器件如果在长期工作中环境条件超过规范或遭受过不可忽视的外力破坏,就极易对自身带来不同程度的损坏。元器件损坏会给电路正常工作带来干扰或使其缺失部分功能甚至瘫痪。但元器件损坏的故障表现比较明显,易及时发现并找到症结所在。而元器件性能变差这一故障却由于在故障前期并无明显征兆而使人难以查找。工作环境的改变或受其他故障的影响都会引起元器件性能变差。若电气控制电路的元器件性能持续长时间达不到要求,则会导致整个电气系统故障[5]。

3电气故障诊断识别方法

随着计算机技术的研究和应用,模式识别技术也发展起来。模式识别是一种可以用于设备故障诊断的重要手段。人们通过分类法来给世界的各种事物分类。给某一类事物下概念和确定范围,然后给予它定量的描述,这被称为模式,然后通过将那些已知模式与需要识别的事物对比,进行识别、归类,将那些具有某种共同点的模式集合称为模式类。模式识别不是传统利用人来识别,而是使用计算机来识别,即利用计算机代替人来对各种物理量进行描述和分类,将需要检测的模式分配到对应的模式类中去。其过程可由图1来表示。图1中被识对象先通过A/D变换,将其特征转换为够被计算机处理的数字量(如果被识别的对象为非电量,那么首先应将它们转换为电信号)。信号通过预处理,过滤掉混入的干扰信号,并且放大有用信号。经过过滤后的有用信号,通过特征抽取,以方便接下来的分类。模式分类则是在特征抽取的基础上,将被识别的对象归类,并确定它属于其中的某种模式[6]。确定电气设备故障类型,进而解决故障。

4结论

电气设备故障可能会引起整个系统的运行,而系统中电气设备的运行状态又不是一成不变的,因此技术人员必须对各电气设备运行状态进行灵活的分析与判断。基于能量损耗和运行状态的计算,可以帮助技术人员在短期内做出初步判断,找出故障的位置和原因,然后再对问题点进行进一步分析、推理,从而判断问题的源头,并予以解决,保障电气设备的正常运行。

参考文献

[1]郁君平.设备管理[M].北京:机械工业出版社,2011.

[2]恒,严璋,谭克雄等.电气设备状态监测与故障诊断技术[M].北京:中国电力出版社,2009.

[3]自动化与仪器仪表[J].2014(6):186-188.

[4]刘新辉,张文友.建筑电气技术[M].西安电子科技大学出版社,2011.

[5]李葆文.现代设备资产管理[M].北京:机械工业出版社,2006.

模式识别范文第3篇

关键词:肺癌分型; 支持向量机; 神经网络; Logistic回归

中图分类号:TP391 文献标识码:A

文章编号:1004-373X(2010)10-0083-03

Comparision of Lung Cancer Grouping Based on Pattern Recognition

LIU Lu1,2, MA Jun-lei1, LI Yun3, DONG Yong-qing4, LIU Wan-yu2

(1. School of Automation, Harbin University of Science and Technology, Harbin 150080, China;

2. HIT-INSA Sino-French United Biomedicine Image Research Centre,Harbin Institute of Technology, Harbin 150001, China;

3. Beijing Filiale of China Combined Network Communication Ltd., Beijing 100052, China;

4. Changbai Wireless KTLA of Jilin Province, Changbai 134400, China)

Abstract: Taking account ofthe influence of different features on the grouping accuracy, the charactesistic selection and optimal experiment were performed by adopting the logistic regression analysis method, and the grouping comparison of the common peripheral lung cancer was carried out by methods of neural network and support vector machine. During the experiments, the application of both the neural network and the support vector Machine methods was adopted, and also the two methods in the application of lung cancer grouping were compared. The experimental results prove that under condition of small sample, the support vector machine method has a stronger generalizability than the neural network method.

Keywords: lung cancer grouping; support vector machine; neural network; Logistic regression

0 引 言

近年来,随着计算机软、硬件基础的提升以及人工智能技术的发展,统计方法和模式识别方法在医学研究领域得到了广泛的应用。分类是模式识别方法的一个重要方面,目的是找出描述并区分数据类或概念的模型,以便能够用该模型预测类别未知的对象所属的类[1]。用于医学研究领域的分类方法主要包括统计方法,如Logistic回归分析以及模式识别方法如支持向量机方法、神经网络方法等。

周围型肺癌常见病症分为3种:腺癌、鳞癌、小细胞癌。本文主要采用统计方法和模式识别的理论对周围型肺癌的3种病症的一些临床表现进行分析和分类判别。实现了特征的优选以及基于不同模式识别分类器的周围型肺癌诊断方法,并比较和分析几种分类器在肺癌分型中的特点。

1对象和方法

1.1 对象

选择哈尔滨医科大学附属肿瘤医院2006年12月~2007年12月期间的周围型肺癌101例,其中男66例,女35例;鳞癌42例,腺癌52例,小细胞癌7例。

纳入本次研究标准:

(1) 病理学或细胞学诊断的肺癌患者(鳞癌、腺癌、小细胞癌)。

(2) 均有医院统一详尽的临床诊断资料。

1.2 判别分析

在所选的101例周围型肺癌中选择临床上有特征性的客观指标共10个,对其按SPSS 11.5软件包进行处理,并将101例患者逐一进行量化[2]:性别(男1,┡2),年龄(3 cm=2),吸烟与否(无=0,有=1),T分期(T1=1,T2=2),组织学分型(鳞癌=1,腺癌=2,小细胞癌=3)。

判别分析是对若干个指标的观测结果判定其应属于哪一类的统计学方法,其在医学领域有着广泛的应用。

Bayes判别:当对各类别的比例分布情况有一定先验信息,就可以利用这些先验信息得到相关类别的判别系数。它的基本思想是认为所有P个类别都是空间中互斥的子域,每个观测都是空间中的一点。它在考虑先验概率的前提下利用Bayes公式,按照一定的准则构造一个判别函数,分别计算该样品落入各个子域的概率,所有概率中最大的一类就被认为是该样品所属类别[3]。

Bayes公式:

P(BkA)=P(ABk)P(A)=P(Bk)P(ABk)∑ni=1P(Bi)P(ABi)

判别函数的形式为:

Y=a1X1+a2X2+…+anXn

式中:Y为判别指标;X1,X2,…,Xn为反映研究对象特征的变量,a1,a2,…,an为各变量系数,也称判别系数。

判别函数效果的验证方法:

(1) 自身验证

即将训练样本依次带入判别函数,来评测错判情况是否严重。

(2) 交叉验证

在建立判别函数时依次去掉1例,然后用建立起来的判别函数对该列进行判别。

肺癌的临床诊断病理分型判别模式结果如下:

Y1(鳞癌)=-29.961+8.260X1+9.580X2+5.489X3+2.650X4+1.138X5+3.205X6+3.975X7+7.864X8+4.434X9+1.361X10;

Y2(腺癌)=-28.684+9.490X1+9.079X2+4.739X3+2.534X4+2.352X5+3.470X6+3.827X7+6.819X8+3.539X9+1.458X10;

Y3(小细胞癌)=-28.955+8.281X1+10.248X2+4.464X3+3.074X4+1.330X5+2.293X6+5.803X7+6.989X8+3.875X9+1.442X10

经Bayes判别分析后得出了肺癌各病理类型的判别函数。自我验证的准确率为57.4%,对鳞癌的验证准确率最高(59.5%),腺癌和小细胞癌分别为55.8%,57.1%。说明函数对肺癌分型诊断具有一定作用。由结果显示函数实际效能不是很理想,这与该研究中的样本数较少有关,待进一步扩大样本数,收集详尽的临床相关资料以校正、完善该模型,进一步提高诊断的准确率。

诊断病理分型判别模式验证结果如表1所示,自身验证结果:正确率为57.4%;交叉验证结果为52.5%。

由于该次研究采集的小细胞癌数量较少,用于模式识别分类的小细胞癌样本数量不足,故在后续的分类方法中只对腺癌和鳞癌进行分型对比,来比较和分析几种分类器在肺癌分型中的特点。

1.3 特征优选与分类

Logistic回归属于概率型非线性回归,它是研究┒分类观察结果与一些影响因素之间关系的一种多变量分析方法。Logistic回归用途极为广泛,几乎已形成了医学中最常用的分析方法,将以上10个客观指标的不同病理类型的特征差异采用卡方检验,对其进行单因素指标分析,P

利用所建立的Logistic回归模型对所有样本进行诊断测试如表2所示,诊断的腺癌正确率为76.9%(40/52),鳞癌的正确率为69%(29/42),总的正确率为73.4%(69/94)。用SPSS 11.5软件进行Logistic回归分析得到腺、鳞癌之间差异性最大的4个特征,分别为性别(P=0.001)、胸痛(P=0.028)、吸烟(P=0.043)、大小(P=0.046)。以此作为模式识别分类的样本特征。

表2 Logistic回归模型对样本的测试结果

ObservedPredicted

ResultsPercentage

1.002.00Correct

Results

1.00291369.0

2.00124076.9

Overall Percentage73.4

人工神经网络(ANN)是现代生物学研究人脑组织所取得的成果基础上提出来的,用大量简单的神经元广泛连接组成的复杂网络来模拟人类大脑神经网络结构和行为,能够模拟人脑的结构以及记忆和处理信息的方式,具有自学习、自适应的特点能够任意逼近非线性函数,广泛应用于模式识别和分类等领域[5]。ANN模型拓扑结构分3层:输入层、隐含层和输出层,输入层包含4个神经元,分别对应由卡方检验进行单因素指标分析P

支持向量机是有Vapnik提出的一种新兴的模式识别分类方法[7-8],它最常用于解决两类模式识别问题[9]。支持向量机方法是一种基于结构风险最小化原理,针对小样本、以统计学习理论为基础的一种优秀学习算法。即使是由有限训练样本得到的解,在求解问题时仍能得到较小的误差。从线性可分模式的情况看,它的主要思想就是建立一个超平面作为决策面,该决策面不但能够将所有训练样本正确分类,而且使训练样本中离分类面最近的点到分类面距离最大。图1给出了线性可分模式下二维输入空间中最优超平面的几何结构。其中实心点和空心点代表两类样本,H为分类线,H1,H2分别为过各类中离分类线最近的样本且平行于分类线的直线,它们之间的距离叫做分类间隔。此时,H1,H2上的点距分类线H的距离均为1/w,分类间隔[10]为2/w。

图1 二维输入空间中最优超平面的几何结构图

在此使用libsvm软件包对腺、鳞癌的样本进行训练和测试,测试样本各选10例,其余的74例都作为训练样本。样本为所选的经Logistic回归分析得出差异性最大的性别、胸痛、肿块大小和吸烟与否4项作为训练的特征。在此设定腺癌为-1,鳞癌为1,即输出向量为[-1,1],核函数为径向基核函数,RBF=0.5,迭代次数41,共找到支持向量61个,测试正确率为14/20即70%,正确率要高于神经网络的测试结果。

2 结 语

神经网络是基于风险最小化为网络优化目标,是在样本无穷大时的渐进理论,支持向量机是基于结构风险最小化原理。针对小样本,以统计学理论基础的学习算法,由于两者在理论基础和优化目标以及学习算法方面的不同,导致两者的逼近能力、泛化能力以及适用范围存在差异。

通过利用神经网络和支持向量机对腺、鳞癌分型的诊断研究表明:

(1) 神经网络和支持向量机方法都能实现对腺、鳞癌的分型,并得到较高的诊断正确率;

(2) 在小样本情况下,支持向量机比神经网络具有更强的泛化能力,更适用于腺、鳞癌的诊断。

参考文献

[1]边肇棋,张学工.模式识别[M].北京:清华大学出版社,2000.

[2]胡南均.109例肺癌的病理与临床及CT相关性分析[D].吉林:吉林大学,2008.

[3]王乐三.SPSS在医学科研中的应用[M].北京:化学工业出版社,2007.

[4]陈广,陈景武.Logistic回归分析的判别预测功能及其应用[J].数理医药学杂志,2007,20(3):280-281.

[5]陈永锋.基于仿生模式识别的孤立性肺结节诊断研究[D].重庆:重庆大学,2007.

[6]董长虹.Matlab神经网络与应用[M].2版.北京:国防工业出版社,2007.

[7]WANG L P. Support vector machine:theory and application[M]. New York: Springer Verlag, 2005: 1-66.

[8]刘露,刘宛予,楚春雨,等.胸部CT图像中孤立性肺结节良恶性快速分类[J].光学精密工程,2009,17(8):2062-2068.

模式识别范文第4篇

关键词:模式识别;神经网络;感知器;权值

中图分类号: TP183 文献标志码: A 文章编码:2095-2163(2015)03-

Perceptron Network Weights Calculation and MATLAB Simulation in Pattern Recognition

ZHANG Guangjian

(1 Department of Information Engineering, Sichuan College of Architectural Technology,Deyang Sichuan 618000, China;2 Institute of Intelligent Computing, Sichuan College of Architectural Technology, Deyang Sichuan 618000, China)

Abstract:As the perceptron neural network pattern recognition, constructing the network model takes a very important parameters, which can be used by manual calculation, and can also carry out the training simulation obtained by MATLAB neural network toolbox. The paper uses two weights for building the classifier network model, and compares test results of the pattern recognition model.It is known that for the recognition rate of the samples tested, the weights are different,and in order to improve the generalization of the model, the construction of the network model need to test selects the optimal weights.

Keywords:Pattern Recognition; Neural Network; Perceptron; Weights

0 引 言

人工神经网络[1](artificial neural network,ANN),简称神经网络(neural network,NN),是一种对人脑功能实行模拟的简化模型结构,是一种功能型的数学模型(计算模型),可完成科学计算,并具有强大的处理问题能力。神经网络是由大量的人工神经元相互连接而成的信息处理系统,能够基于外界信息的引发改变内部结构,因而属于一种自适应系统。现代神经网络则是一种非线性统计性数据建模工具,常用来对输入和输出间的复杂关系进行建模,或用来探索数据的关联模式。

1943年,美国神经生理学家McCulloch和Pitts提出的第一个神经网络模型M-P模型,开创了人工智能的研究工作,奠定了神经网络的发展基础。其中的感知器(Perceptron)则是由美国计算机科学家罗森布拉特(Frank Rosenblatt)于1957年提出的。  

具体来说,神经网络是一种运算模型[2],是由大量的节点(或称“神经元”,或“单元”)及其间的相互联接构成。每个节点代表一种特定的输出函数,称为激励函数(activation function)。每两个节点间的连接均表示对于通过该连接信号的加权值,称之为权重(weight),也就相当于人工神经网络的记忆。此外的网络输出则是依据网络的连接方式、权重值(权值)和激励函数的不同而各不相同。综合论述可得,网络自身通常都是对自然界某种算法或者函数的逼近,也可能是对一种逻辑策略的表达。因此,为解决模式识别问题创建的网络模型,若选用最优权值,就会极大地提高模式识别率。

1 感知器及学习算法

神经网络中,感知器神经网络[3]是一种典型的分层结构,信息从输入层进入网络后,将逐层向前传递至输出层。单层感知器是一个具有一层神经元、采用阈值激活函数的前向网络。通过对网络权值的训练,可以使感知器对一组输入矢量的响应完成结果为0或1的目标输出,从而实现对输入矢量分类的目的。没有反馈或竞争的简单神经元感知器模型如图1 所示。

图1 一个单一神经元的感知器模型

Fig.1 A single neuron perceptron model

在感知器学习算法[4]中,设输入向量 ,相应的权值向量 ,对一个输入模式 的网络输入 为

(1)

根据阈值函数产生一个输出 为:

(2)

感知器学习中,设t为目标输出,使用Hebbian学习,其误差公式为:

(3)

对任何新权值,具体计算公式为:

(4)

对于误差E的三种可能情况,新权值的调整公式为:

(5)

在公式(5)中, 是新的调整权值, 是前次或者初始权值; 是输入向量; 是学习率,且是一个常数, 。精准快捷地确定 值,将直接影响对后期的网络学习训练时间。 2 手工计算权值

样本集如表1所示。其中 x1,x2为两个输入,t为期望目标输出。感知器分类器的任务是将表1所示的二维模式进行分类。

表1 分类数据

Tab.1 Classification of samples

0.3,0.7 1

-0.6,0.3 0

-0.1,-0.8 0

0.1,-0.45 1

样本点如图2所示。

图2 输入向量与期望响应样本图

Fig.2 Input vector and the desired response sample figure

根据文献[2]的推理,假定 ,其中, 是学习率, 为网络初始权值。权值调整过程具体如下。

(0.3)=0.95

=-0.15

调整后的权值,继续计算第二组样本数据 。

如果分类正确,继续使用该组权值计算下一组数据;分类错误,即需应用公式(5)的规则进行权值调整,直到最终获得一组权值w=[1.05 0.025],完成对全部样本进行的正确分类。为此,根据权值和样本对感知器网络进行分类训练,其相应的分类结果如图3所示。

图3样本分类图

Fig.3 Sample classification map

3 MATLAB训练仿真

MATLAB神经网络工具箱(Neural Network Tool)[5],为神经网络提供了一种高效、集成的仿真手段,通过该工具箱,可以对神经网络进行设计、训练、可视化以及仿真。

使用MATLAB R2013a 的神经网络工具箱函数,设置p为输入向量,t为期望目标向量。

p= [0.3 -0.6 -0.1 0.1;

0.7 0.3 -0.8 -0.45];

t= [1 0 0 1];

net =newp(minmax(p),1);

网络传递函数指定为硬限值函数HARDLIM, 学习函数指定为LEARNP。创建如图4所示的感知器神经网络模型。

图4 生成的感知器网络模型

Fig.4 Perceptron network model generation

使用命令net=train(net,p,t)进行网络训练,使用sim(net,p)进行仿真,得到输出向量为,偏值为b=0。使用plotpc(net.iw{1,1},net.b{1}) 命令在样本中绘制分类线,如图5所示,从图中可以看出分类线能对输入样本完全分类。

图5 训练后的网络对输入样本的分类

Fig.5 Classification of the input sample after network training

4 网络测试[6]

通过样本训练得到的网络,但是测试样本的准确率却未必会高。一个性能良好的网络应该具有优秀的泛化能力。首先输入样本数据进行训练,通过修正权值来减小误差得到拟合程度很高的网络模型,而后的网络测试则是用另外的样本数据去测试网络的性能。

对于两种权值建立的网络模型,通过加入测试样本数据进行分类测试,测试样本为:

p1=[ 0.4 -0.5 0 0.2 ; 0.8 0.4 -0.7 -0.35 ]

使用MATLAB的sim(net,P1) 函数完成对输入样本的测试。

对于手工计算获得的权值W=[1.05,0.025],加入测试样本集后,分类结果如图6所示。

图6测试样本分类(手工计算)

Fig.6 Test sample classification (manual calculation)

对于使用MATLAB计算机仿真训练获得的权值W=[1.8 0] ,加入测试样本集,分类结果如图7所示。

图7测试样本分类(MATLAB)

Fig.7 The test sample classification (MATLAB)

对比图6和图7,可以清楚看到根据两种方式获得的权值,建立两种感知器神经网络模型,均能对样本进行分类,但却同时可知图6的网络模型可对测试样本集进行更见成效的分类。

5 结束语  

感知器神经网络只能解决线性可分的模式分类问题,在应用上有一定的局限性,但对于线性可分问题建立的模型,总能通过训练,在有限的循环次数内找到网络权值,使网络达到期望的输出,进而完成模式分类。通过对同一模型的手工计算和MATLAB训练,得出的网络权值并不相同,但都可以对网络进行分类,只是对于使用MATLAB进行的计算机训练仿真,所获取的权值与计算精度、连同使用的学习函数及传递函数方面将会有一定的影响。而且,选取不同权值建立的模型,在泛化能力上也将存在一定差异。作为感知器分类器的模型建立,需要反复比对找到最优的权值,这样建立的模型在泛化能力上才会具有更好的适应性。

参考文献:

[1] (美)Martin T. Hagan等,著.神经网络设计[M]. 戴葵等,译.北京:机械工业出版社,2002.

模式识别范文第5篇

[关键词] 模式识别 风险分类 适用性

一、引言

贷款风险分类,就是根据借款人的当前经营情况和违约迹象来判断其按时还款的可能性并给予风险等级评价,是银行综合了借款人财务、非财务因素,对贷款未来安全收回可能性的评价。如何判断借款人的每个因素对贷款偿还的影响程度,以及如何将上述各种因素定性和定量分析归纳汇总,作出全面科学的风险评定是贷款风险分类操作的难点和关键。

在现代信用风险度量模型出现以前,测度信贷信用风险的方法主要有:专家制度法、评级法和信用评分法。近年来,一些大的金融机构相继构建了比较规范的、有重大影响的四大信用风险度量模型:JP 摩根的Credit Metrics 方法;KMV公司的KMV 模型;CSFP(Credit Suisse Financial Products) 的Credit Risk + 方法;麦肯锡公司的信用组合观点模型(Credit portfolio View)。这四大信用风险度量模型对中国银行业都有一定的借鉴意义。模型最大的问题是任何一个模型都没有全面考虑到借款人的道德风险,还有借款人的具体情况,如银行合同、贷款合同、担保能力、借款期限等,而且由于经济制度、金融发展水平等方面的差异,因此,借用西方信用风险模型应慎重,我国应用这些大型量化模型的条件还不成熟。

本文把贷款风险分类看作是一个模式识别问题,在此框架下,就统计模式识别领域中最新使用的神经网络方法、分类树法、以及支持向量机三种方法的建模思想、适用性进行比较,并给出有关结论。

二、贷款风险分类是一个模式识别问题

所谓模式识别,就是用计算机的方法来实现人对各种事物或现象的分析、描述、判断和识别。目前我国实行的贷款风险五级分类法(简称风险分类),它是根据贷款对象的第一还款来源与第二还款来源共同特征(财务指标)或属性(非财务指标)进行识别判断而进行分类的,其核心在于它以借款人的偿还能力作为分类标志。

贷款风险分类的模式识别系统的精度及其正确性,主要取决于(1.3)式中的一些参数的估计的精度。训练时如果输入模式样本的类别信息是已知的,这时可以用“有监督”的模式识别技术,让识别系统执行一个合适的学习训练过程,把系统“教”成可使用各种适应修改技术再去识别模式。如果采集到样本模式是未知类别的,这时可用“无监督的模式识别技术,即必须通过系统的学习过程去得到其所属的范畴。

三、模式识别技术的建模思路及其适用性分析

目前用于统计模式识别的方法很多,主要有判别分析法、回归分析法、人工智能(专家系统)、神经网络、决策树法、K近邻法、支持向量机等。本文仅就目前最为流行的人工神经网络、决策树法、支持向量机三种非参数模式识别方法建模思路、适用性进行比较分析。

1.神经网络模型(ANN)

(1)建模思路

人工神经网络(Artficial Neural Networks ANN )是一种具有模式识别能力,自组织、自适应,自学习特点的计算方法。神经网络模型建模思路是,首先找出影响分类的一组因素,作为ANN的输入,然后通过有导师或无导师的训练拟合形成ANN风险分析模型。对于新的样本输入(即一组影响因素值),该模型可产生贷款风险的判别。

(2)适用性分析

神经网络的适用性首先表现为分类的准确性比较高。特别是在测试数据为非线性关系的情况下,尤其如此;其次是神经网络有较强的适应训练样本变化的能力,当训练样本增加新的数据时,能够记忆原有的知识,根据新增的数据作恰当的调整,使之表示的映射关系能够更好的刻画新样本所含的信息。这一点不仅使得神经网络具有较强的适应样本变化的能力,还使它具有动态刻画映射关系能力,也克服了线性判别分析方法的静态特点;再次是其具有鲁棒性。神经网络对于样本的分布、协方差等没有要求,对样本中存在的噪音数据、偏差数据不敏感。监管部门在面对众多监管对象银行时, 可以根据其报表中的监管指标与监控指标的输出结果,迅速、准确地判断商业银行的经营状况,就可以辅助以现场检查的手段,对商业银行进行适当、适时的干预。

神经网络方法的主要缺点一是对样本的依赖性过强,对样本提出了很高的要求。因为它很少有人的主观判断因素的介入;二是解释功能差。它仅能给出一个判断结果,而不能告诉你为什么;三是在神经网络方法中输入特征变量的确定出关键指标问题时,需要依赖于其他的统计分析方法;四是是样本分成多少个种类,这些问题都是神经网络方法无法独自解决的,要依赖于其他方法;五是神经网络的训练速度慢且极易收敛于局部极小点,推广能力差,以及容易出现“过学习”现象。

2.分类树方法(CART)

(1)建模思路

分类树方法(CART)是一种由计算机实现,基于统计理论的非参数识别方法。其建模思路是:在整体样本数据的基础上,生成一个多层次、多节点的树,按广度优先建立直到每个叶节点包含相同的类为止,以充分反映数据间的联系。然后对其进行删减,参照一定规则从中进行选择适当大小的树,用于对新数据进行分类即建造最大树,对树删减,选择适当的树用于新样本分类。

(2)适用性分析

分类树方法在银行贷款风险分类中的适用性首先在于通过借款人经营状况的变化及其破产的可能性的判断,来估计其违约的可能性,进而来推测该借款人持有的贷款风险程度。它不但具有哲学上的二分法的优点,而且其分类标准的选择也包含着经济理论上的合理性。反映申请者信用关系中各项指标之间的相关性是应用分类树于信贷信用分类的有利条件,它可以有效地利用定性变量进行分类。

分类树的缺陷表现在:一是计算量大;二是在一些连续型定量变量的处理上,分类树就显得有些力不从心;三是对结点属性的判定上,往往以叶结点中所含多数样本的属性来决定该叶结点的属性。但如果碰到训练样本中某种样本(譬如好样本,占大多数)。此时分类的结果很可能是几乎每个叶结点都是好样本占多数,或出现一些好坏样本的个数相当的叶结点。于是就可能出现几乎所有的叶结点都是好样本集合,或其中一些结点无法判断。无论哪种情况出现,都将导致对坏样本的辨别率降低,进而导致分类树的效率降低。

3.支持向量机模型(SVM)

(1)建模思路

(2)适用性分析

由于支持向量机出色的学习性能、泛化性能、良好表现和所估计的参数少等特点,能够较好地解决小样本、高维数、非线性、局部极小等问题。鉴于支持向量机的诸多优点,国外学者 Van.Gestel(2003)将支持向量机应用到信贷风险分类与评估领域,并与神经网络及Logistic回归相比较,得到了较好的结果。同时利用支持向量机,能提高学习机的泛化能力,能成功地解决风险分类、函数逼近和时间序列预测等方面,对构建贷款分类模型也具有重要的实践意义。

但SVM是解决一个二分类问题,现实中遇到的大都是多分类问题,如支持向量机无法解决信贷风险的五级分类问题。另外,影响支持向量机模型分类能力的参数选择存在人为确定的主观性等。

四、结论

从信贷风险管理角度看,信贷风险分类与量化管理是一个必然趋势。为了提高贷款分类的准确性,必须将上述两种或两种以上的方法结合起来使用,取长补短。同时,中国银行业在运用这些相对复杂的预测技术时,不仅要根据国内的实际情况和银行业自身发展阶段,科学地制定信贷风险管理流程,还要加强人才培养和数据库建设,尽可能地运用信贷风险管理先进技术将信贷风险损失降到最低限度,实现可持续发展。

参考文献:

[1]J.P. Morgan.Credit Metrics―Technical Document.1997, 4:2

[2]KMV.Global Correlation Factor Structure. San Francisco:KMV Corporation.1996,8 :16~17

[3]Credit Suisse First Boston. Credit Risk+, A Credit Risk management Framework. Credit Suisse First Boston Internation, 1997

[4]McKinsey and Co, Credit Portfolio View. New York, Mckinsey and Co.1997

[5]曹道胜等:商业银行信用风险模型的比较及其应用[J].金融研究,2006年第10期

[6]王振民,中国商业银行贷款风险分析[D].天津大学博士论文,2005年5月,P33

相关期刊更多

模式识别与人工智能

北大期刊 审核时间1-3个月

中国科学技术协会;中国自动化学会

深圳特区科技

省级期刊 审核时间1个月内

深圳市科技和信息局

计算机教育

部级期刊 审核时间1个月内

中华人民共和国教育部