首页 > 文章中心 > 卷积神经网络实现过程

卷积神经网络实现过程

前言:想要写出一篇令人眼前一亮的文章吗?我们特意为您整理了5篇卷积神经网络实现过程范文,相信会为您的写作带来帮助,发现更多的写作思路和灵感。

卷积神经网络实现过程

卷积神经网络实现过程范文第1篇

关键词:手写数字识别;卷积神经网络;应用

手写体数字识别在邮政、金融等领域应用广泛。对于数字识别,人们往往要求识别器有很高的识别可靠性,数字识别的错误所带来的影响比文字识别等其他识别所带来的影响更大,特别是有关金融方面的数字识别错误所带来的后果是无法想象的,识别错一个数字,这其中的差距可能是几的差距,也可能是几十、几百的差距,这些都还是小问题;但更有可能这一个数字代表的差距是几万、几千万甚至几亿乃至更多,那么这个错误造成的损失就无法估量了。因此,O计出有着高可靠性与高识别率的数字识别系统已经成为了字符识别领域一个非常重要的环节。

1 网络模型和数据库及学习算法的选择

1.1 关于Mnist数据库的介绍

首先,Mnist是NIST数据库的一个优化子集。它是一个有着60000个训练样本集与10000个测试样本集的手写体数字数据库。此数字库一共有4个文件。

此数字库的所有样本集都有图像文件以及标签文件。标签文件的作用是用来储存样本集中的每个样本的数值标签,而每一个样本的图像数据信息则是由图像文件存储着。此数据库的图像数据均保存在二进制文件之中,且每个样本图像的大小均为28*28。

1.2 数字识别的模型选择

手写体数字虽然只有0~9十个数字,但由于写法因人而异,不同地域同样一个数字有多种不同的写法,每个人都有自己的书写习惯。且一些纸质差异、笔画粗细、光线问题、位置、尺度大小等等多种因素都能对输入产生影响。考虑到这些因素,为让网络有良好的识别能力,我们这里采用在图像识别领域有着优秀表现的卷积神经网络作为此数字识别系统的训练模型。

1.3 学习算法的选择

一个优秀的网络模型必须具备良好的学习算法,每个学习网络都有着相对来说较为合适自己的学习算法,而并不是说越高端的算法就越好。在此文中,我选择的学习算法是较为成熟的BP算法。此算法在文字前面有些许介绍,此处不再多做说明。

2 基于卷积神经网络的数字识别系统的设计

2.1 输入层以及输出层设定

根据样本的特征与此网络的网络结构,可以大概判断出输入层与输出层该如何设置。隐含层的个数可以是一个,也可以是多个,这与要分类的问题有关。

前文提及到在mnist数据库中,所有的图像都是28*28大小的,且以整个图片的像素形式存储在数据文件之中。每张图像大小为28*28,故一个图片像素点个数为784个。这里,卷积神经网络的输入即为这784个像素点。

因为数字识别需要识别的是0~9这十个数字,即需要识别十种字符类别,所以将这个神经网络输出层的神经元节点数设置为10。

2.2 网络的中间层设置

卷积神经网络的中间层有两个部分,即卷积层(特征提取层)与下采样层(特征映射层),由第二章中图2-1所示,C1、C3为卷积层,S2、S4为降采样层。

1)激活函数选择

激活函数选择sigmoid函数。同样,在第二章有所提及。Sigmoid函数是严格递增函数,能较好的平衡线性与非线性之间的行为,比较贴近生物神经元的工作。相比于其他函数,sigmoid函数还存在着许多优势,比如光滑性、鲁棒性以及它的导数可以用它自身来表示。

sigmoid函数为:

(1)

其中,x为神经元净输入。

激活函数导数为:

(2)

2)卷积层设计

图像经过卷积核对特征图进行卷积,之后再经过sigmoid函数处理在卷积层得到特征映射图。特征映射图相比于原图像,其特征更为明显突出。

卷积运算其实就是一个加权求和的过程。离散卷积是本文所选取的方法,规定卷积核在水平和竖直两个方向每次都是移动一个像素,即卷积的步长为1。

3)下采样层的设计

根据图像局部相关性这一原理,为了降低网络的学习维度、减少需要处理的数据量且保留图像的有用信息,可以对卷积后的图像进行下采样。这里,我们采取的是取卷积层4个像素点平均值为下采样层的一个像素点的方法。这样可以降低网络规模。

2.3 网络总体结构CNN-0

根据LeNet-5结构,再结合上文中的对输入层、输出层、中间层的设计,完成了如图3-1所示的基本网络结构:

相比于LeNet-5,CNN-0做了一些修改,并非完全按照LeNet-5网络结构模型。Sigmoid函数是本网络中的激活函数,选择这个函数的好处在于可以让所有层得到的输出都在区间[-1,1]之内。网络训练的学习率固定值为1或者是衰减的学习速率。经过卷积后的一维向量与输出层没有沿用LeNet-5的径向基函数网络,而是采取全连接方式,省去了F6层。

3.3 卷积神经网络训练过程

在模式识别中,学习网络有无指导学习网络与有指导学习网络两个类别。无指导学习网络一般是用来进行聚类分析,本文采取的是有指导学习网络。

卷积神经网络其实就是从输入到输出的一种映射,它可以学量的映射关系,只需要用现有的模式对网络进行训练,网络就能具备映射能力。而不需要输入与输出之间的精确的关系。

训练算法与传统的BP算法相差无几(BP算法在第二章有做概述),主要可分为四个步骤,而这四个步骤可以归为向前传播阶段与向后传播阶段:相前传播:

1)随机的从样本集中获取一个样本(A, ),然后将A输入至网络中;

2)根据公式(3)计算出实际输出:

(3)

向后传播:

1)计算和理想输出之间的差;

2)根据极小化误差方法调整权值矩阵。

结语

在手写数字识别这一块,相对来说比较有难度的应该就是脱机自由手写字符识别了,不过本文所研究的并不是这一系统,本设计是一个基于卷积神经网络的手写数字识别系统,因卷积神经网络的局部感受野和降采样以及权值共享、隐性特征提取等优点,它在图像识别领域得到了非常广泛的应用。此程序是在Caffe这个框架上进行运行的,操作系统为Linux系统ubuntu14.04版本。Caffe是一个开源的深度学习框架,也可以说是一个编程框架或者模板框架,它提供一套编程机制。因此,本文所需要实际的卷积神经网络就可以根据这个框架来进行构建。

参考文献:

[1]张伟,王克俭,秦臻.基于神经网络的数字识别的研究[J].微电子学与计算,2006年第23卷第8期.

卷积神经网络实现过程范文第2篇

【关键词】视频 行为识别 检测

近年来,各种视频监控越来越深入我们的生活中。因其实时性、直观性以及设备成本日益降低在各行各业中而倍受青睐。但视频监控系统还是依靠人工来控制,没有进入数字化的全天实时监测、智能分析图像数据。要实现完全数字化的监控的关键在于人体行为的智能识别。

早些时候有人提出并且应用了智能图像识别的卷积神经网络,它是在原始的输入中应用可训练的滤波器和局部邻域池化操作,来得到一个分级的且逐渐复杂的特征表示。实践表示,采用合适的规则化项来训练,它可以达到非常好的效果。比较好的地方是对姿势、光照和复杂背景存在不变性,单只受限在2D输入的舞台。本文文章提出了一个新的3D卷积神经网络模型,用于运动识别。该模型可以从空间和时间的维度提取特征,然后进行3D卷积,以捕捉从多个连续帧得到的运动信息。为了有效的综合运动信息,文中通过在卷积神经网络的卷积层进行3D卷积,以捕捉空间上、时间上的维度,让其都具有区分性的特征。

3D卷积是通过堆叠多个连续的帧组成一个立方体,然后在立方体中运用3D卷积核。在其中,卷积层中每一个特征map都会与上一层中多个邻近的连续帧相连,以捕捉运动信息。一个卷积map的某一位置的值是通过卷积上一层的三个连续的帧的同一个位置的局部感受得到的。要强调的是:3D卷积核只能从cube中提取一种类型的特征,因为在整个cube中卷积核的权值都是一样的,也就是共享权值,都是同一个卷积核。可以采用多种卷积核,以提取多种特征。有一个通用的设计规则就是:在后面的层(离输出层近的)特征map的个数应该增加,这样就可以从低级的特征maps组合产生更多类型的特征。本文中的3D 卷积神经网络架构包含一个硬连线hardwired层、3个卷积层、2个下采样层和一个全连接层。每个3D卷积核卷积的立方体是连续7帧,每帧patch大小是60x40。

在第一层,应用了一个固定的hardwired的核去对原始的帧进行处理,产生多个通道的信息,然后对多个通道分别处理。最后再将所有通道的信息组合起来得到最终的特征描述。这个实线层实际上是编码对特征的先验知识,这比随机初始化性能要好。

每帧提取五个通道的信息,分别是:灰度、x和y方向的梯度,x和y方向的光流。其中,前面三个都可以每帧都计算。然后水平和垂直方向的光流场需要两个连续帧才确定。所以是7x3 + (7-1)x2=33个特征maps。然后用一个7x7x3的3D卷积核(7x7在空间,3是时间维)在五个通道的每一个通道分别进行卷积。为了增加特征map的个数(实际上就是提取不同的特征),在每一个位置都采用两个不同的卷积核,这样在C2层的两个特征maps组中,每组都包含23个特征maps。23是(7-3+1)x3+(6-3+1)x2前面那个是:七个连续帧,其灰度、x和y方向的梯度这三个通道都分别有7帧,然后水平和垂直方向的光流场都只有6帧。54x34是(60-7+1)x(40-7+1)。

在紧接着的下采样层S3层max pooling,在C2层的特征maps中用2x2窗口进行下采样,这样就会得到相同数目但是空间分辨率降低的特征maps。下采样后,就是27x17=(52/2)*(34/2)。 C4是在5个通道中分别采用7x6x3的3D卷积核。为了增加特征maps个数,在每个位置都采用3个不同的卷积核,这样就可以得到6组不同的特征maps,每组有13个特征maps。13是((7-3+1)-3+1)x3+((6-3+1)-3+1)x2前面那个是:七个连续帧,其灰度、x和y方向的梯度这三个通道都分别有7帧,然后水平和垂直方向的光流场都只有6帧。21x12是(27-7+1)x(17-6+1)。

S5层用的是3x3的下采样窗口,所以得到7x4. 到这个阶段,时间维上帧的个数已经很小了。在这一层,只在空间维度上面卷积,这时候使用的核是7x4,然后输出的特征maps就被减小到1x1的大小。而C6层就包含有128个特征map,每个特征map与S5层中所有78(13x6)个特征maps全连接,这样每个特征map就是1x1,也就是一个值了,而这个就是最终的特征向量了。

经过多层的卷积和下采样后,每连续7帧的输入图像都被转化为一个128维的特征向量,这个特征向量捕捉了输入帧的运动信息。输出层的节点数与行为的类型数目一致,而且每个节点与C6中这128个节点是全连接的。采用一个线性分类器来对这128维的特征向量进行分类,实现行为识别。模型中所有可训练的参数都是随机初始化的,然后通过在线BP算法进行训练。

3D 卷积神经网络模型的输入被限制为一个少的连续视频帧,因为随着输入窗口大小的增加,模型需要训练的参数也会增加。当然有些人的行为是跨越很多帧的,所以在3D 卷积神经网络模型中,有必要捕捉这种高层的运动信息。需要用大量的帧来计算运动特征,然后把这些运动特征作为辅助输出去规则化3D 卷积神经网络模型。

对于每一个需要训练的行为,提取其长时间的行为信息,作为其高级行为特征。这个运动信息因为时间够长,所以要比卷积神经网络的输入帧的立方体包含的信息要丰富很多。然后我们就迫使卷积神经网络学习一个非常接近这个特征的特征向量。这可以通过在卷积神经网络的最后一个隐层再连接一系列的辅助输出节点,然后训练过程中,使提取的特征更好的逼近这个计算好的高层的行为运动特征向量。

试验中,在原始的灰度图像中计算稠密sift描述子,然后通过这些sift描述子和运动边缘历史图像(MEHI)组合构造bag-of-words特征作为辅助特征。 因为灰度图保留了外观信息,运动边缘历史图像只关心形状和运动模式,所以可以提取这两个互补的信息作为两个连续帧的局部特征bag。先简单的计算两帧间的差分,这样就可以保留运动信息,然后对其执行一次Canny边缘检测,这样可以使得观测图像更加清楚简洁。最总的运动边缘图像就是将历史的这些图像乘以一个遗忘因子再累加起来得到。

本文中,构造不同的3D 卷积神经网络模型,它可以从输入捕捉潜在的互补信息,然后在预测阶段,每个模型都针对一个输入得到对应的输出,然后再组合这些输出得到最终的结果。

作者简介:

卷积神经网络实现过程范文第3篇

关键词:卷积神经网络;反向传播算法;仿射变换;sloth;python;theano

中图分类号:TP391.41 文献标识码:A 文章编号:1007-9416(2017)04-0096-02

随着环保压力的增大,各国已经开始利用摄像头来监控渔船的捕捞活动,并运用机器学习技术来对渔船捕获的鱼类图像进行自动的识别与分类从而扼制非法的捕捞。

目前计算机性能的飞速发展、图像数据采集设备的廉价与普及促进了机器学习理论与方法的发展,数据科学家已经可以构建复杂的机器学习模型并利用从廉价的数码摄像头设备采集到大量的数据快速的训练模型。吴一全等[1]采用了手动选择特征的方法, 基于支持向量机对5种鱼进行识别,各类鱼的识别精度平均为83.33%。万鹏等[2]计算鱼的长轴方向各段的平均宽度与长度的比值并将其作为特征参数,利用3层BP(back propagation)神经网络对鲫鱼和鲤鱼进行识别,识别精度为92.50%。但是这些方法都是基于手动选择特征的机器学习方法,手动选择特征的方法基于人的经验选择特征, 会导致遗漏重要的特征, 导致分类准确率低。深度学习中的卷积神经网络能在训练过程中自动学到“好”特征,避免了手动选择特征。本次研究采用了基于VGG16的卷积神经网络(CNN)来进行鱼类分类,并运用了数据集扩增方法,dropout方法, batch normalization方法来降低模型的过拟合。但是原始数据集背景干扰很大,船上的人、物体和甲板上捕获的鱼类糅合在一起,直接采用原始数据集训练会导致训练出的模型稳定性不好。

基于上述分析,本文从原始数据出发,设计了一种目标检测方法,即在原始训练数据已经有鱼类类别标签的基础上,再标注上一层表示鱼类在图片中坐标位置的标签,然后利用这些二次标注过的数据训练模型,就可得到一个既能预测鱼在图片中的坐标位置又能预测鱼的分类的糅合模型。因为这两种预测网络在卷积层共同训练一套滤波器,所以在训练滤波器预测鱼的坐标位置时,训练完成的滤波器便能在另一方面辅助预测鱼的分类,使特征提取只专注于鱼的坐标区域,这样就有效的排除了背景干扰。实验结果显示此模型具有很高的识别精度和鲁棒性,能在背景干扰很强的图片数据集上准确的完成鱼类的识别和分类。

1 模型构建

实验数据来源于某组织举办的图像识别竞赛。数据通过固定在渔船某个位置的摄像头采集,通过采集甲板上捕获的鱼类照片,共采集到3777张共8个分类的照片作为训练样本,分别为长鳍金枪鱼、大眼金枪鱼、黄鳍金枪鱼、鳅鱼、月鱼、鲨鱼、其他、无鱼类(表示没有鱼出现在照片里)。按一定比例做分层采样,其中2984张用作训练集,394张用作验证集,399张用作测试集。训练集用经过错切幅度值为0.15的仿射变换作数据集扩增来降低过拟合,因为在从原始数据集上分层采样得来的小样本数据集上验证显示当错切幅度值等于0.15时,模型在测试集上的分类精度最高。

在训练集上采用sloth@款图片标注工具手动标注鱼类在图片中的位置,并把这些标注结果和已有的鱼类分类标注结果当做输入数据和图片数据一起传给模型训练。

本次研究的神经网络模型结构如图1所示。卷积层采用了被广泛使用在图像分类任务中的VGG模型的卷积滤波器的权重[3],并在其模型上作微调来实现本次研究的目标。

输入层将不同尺寸的图片统一转换成244*244大小。

汇合层(max pooling)是指取一小块像素区域的像素最大值,作用是可减少数据量,控制过拟合。

全连接层的权重采用反向传播算法(back propagation)训练,参数寻优采用随机梯度下降方法。动态学习率设定方法采用了 Adam方法,可根据损失函数在迭代训练中产生的信息自动调整学习率。

激活层函数采用RELU方法,公式为。最后一层预测鱼类分类的激活曾需要把对应于各个分类的分数值转换成总和为1的对应于各个分类的概率值,所以激活函数采用Softmax方法,公式如下

由于卷积神经网络网络强大的表示能力,为了降低模型的过拟合以及加快模型的训练速度,本次工作在激活曾后面再依次加入一层dropout层和batch normalization层。dropout层是指随机的舍弃一部分激活曾神经元的值,并将其置为0[4]。batch normalization层是指规范化每层激活层的输出,并加入4个规范化参数来抑制模型训练过程中的反规范化现象[5]。

2 程序实现

具体的软件实现采用python编程语言和keras框架平台。keras底层采用轻量易用的theano框架,并依赖计算机的显卡来进行更快速的训练工作。整个图像分类的软件框架主要由4部分组成,分别是输入图像数据处理、模型各个网络层的实现及拼接、模型编译、模型训练及预测。下面按数据在模型中流动的顺序具体的阐述各个部分的程序实现。

2.1 输入图像数据处理

卷积神经网络实现过程范文第4篇

关键词:人机大战;人工智能;发展前景

中图分类号:TP391 文献标识码:A

0.引言

2016年3月15日,备受瞩目的“人机大战”终于落下帷幕,最终Google公司开发的“AlphaGo”以4∶1战胜了韩国九段棋手李世h。毫无疑问,这是人工智能历史上一个具有里程碑式的大事件。大家一致认为,人工智能已经上升到了一个新的高度。

这次胜利与1997年IBM公司的“深蓝”战胜国际象棋世界冠军卡斯帕罗不同。主要表现在两个方面:

(1)AlphaGo的胜利并非仅仅依赖强悍的计算能力和庞大的棋谱数据库取胜,而是AlphaGo已经拥有了深度学习的能力,能够学习已经对弈过的棋盘,并在练习和实战中不断学习和积累经验。

(2)围棋比国际象棋更加复杂,围棋棋盘有361个点,其分支因子无穷无尽,19×19格围棋的合法棋局数的所有可能性是幂为171的指数,这样的计算量相当巨大。英国围棋联盟裁判托比表示:“围棋是世界上最为复杂的智力游戏,它简单的规则加深了棋局的复杂性”。因此,进入围棋领域一直被认为是目前人工智能的最大挑战。

简而言之,AlphaGo取得胜利的一个很重要的方面就是它拥有强大的“学习”能力。深度学习是源于人工神经网络的研究,得益于大数据和互联网技术。本文就从人工智能的发展历程与现状入手,在此基础上分析了人工智能的未来发展前景。

1.人工智能的发展历程

AlphaGo的胜利表明,人工智能发展到今天,已经取得了很多卓越的成果。但是,其发展不是一帆风顺的,人工智能是一个不断进步,并且至今仍在取得不断突破的学科。回顾人工智能的发展历程,可大致分为孕育、形成、暗淡、知识应用和集成发展五大时期。

孕育期:1956年以前,数学、逻辑、计算机等理论和技术方面的研究为人工智能的出现奠定了基础。德国数学家和哲学家莱布尼茨把形式逻辑符号化,奠定了数理逻辑的基础。英国数学家图灵在1936年创立了自动机理论(亦称图灵机),1950年在其著作《计算机与智能》中首次提出“机器也能思维”,被誉为“人工智能之父”。总之,这些人为人工智能的孕育和产生做出了巨大的贡献。

形成期:1956年夏季,在美国达特茅斯大学举办了长达2个多月的研讨会,热烈地讨论用机器模拟人类智能的问题。该次会议首次使用了“人工智能”这一术语。这是人类历史上第一次人工智能研讨会,标志着人工智能学科的诞生。其后的十几年是人工智能的黄金时期。在接下来的几年中,在众多科学家的努力下,人工智能取得了瞩目的突破,也在当时形成了广泛的乐观思潮。

暗淡期:20世纪70年代初,即使最杰出的AI程序也只能解决问题中最简单的部分,发展遇到瓶颈也就是说所有的AI程序都只是“玩具”,无法解决更为复杂的问题。随着AI遭遇批评,对AI提供资助的机构也逐渐停止了部分AI的资助。资金上的困难使得AI的研究方向缩窄,缺少了以往的自由探索。

知识应用期:在80年代,“专家系统”(Expect System)成为了人工智能中一个非常主流的分支。“专家系统”是一种程序,为计算机提供特定领域的专门知识和经验,计算机就能够依据一组从专门知识中推演出的逻辑规则在某一特定领域回答或解决问题。不同领域的专家系统基本都是由知识库、数据库、推理机、解释机制、知识获取等部分组成。

集成发展期:得益于互联网的蓬勃发展、计算机性能的突飞猛进、分布式系统的广泛应用以及人工智能多分支的协同发展,人工智能在这一阶段飞速发展。尤其是随着深度学习和人工神经网络研究的不断深入,人工智能在近几十年中取得了长足的进步,取得了令人瞩目的成就。

人工智能发展到今天,出现了很多令人瞩目的研究成果。AlphaGo的胜利就是基于这些研究成果的一个里程碑。当前人工智能的研究热点主要集中在自然语言处理、机器学习、人工神经网络等领域。

2.人工智能l展现状与前景

人工智能当前有很多重要的研究领域和分支。目前,越来越多的AI项目依赖于分布式系统,而当前研究的普遍热点则集中于自然语言处理、机器学习和人工神经网络等领域。

自然语言处理:自然语言处理(Natural Language Processing,简称NLP),是语言学与人工智能的交叉学科,其主要功能就是实现让机器明白人类的语言,这需要将人类的自然语言转化为计算机能够处理的机器语言。

自然语言处理主要包括词法分析、句法分析和语义分析三大部分。词法分析的核心就是分词处理,即单词的边界处理。句法分析就是对自然语言中句子的结构、语法进行分析如辨别疑问句和感叹句等。而语义分析则注重情感分析和整个段落的上下文分析,辨别一些字词在不同的上下文定的语义和情感态度。

当前自然语言的处理主要有两大方向。一种是基于句法-语义规则的理性主义理论,该理论认为需要为计算机制定一系列的规则,计算机在规则下进行推理与判断。因此其技术路线是一系列的人为的语料建设与规则制定。第二种是基于统计学习的经验主义理论,这种理论在最近受到普遍推崇。该理论让计算机自己通过学习并进行统计推断的方式不停地从数据中“学习”语言,试图刻画真实世界的语言现象,从数据中统计语言的规律。

机器学习:机器学习(Machine Learning)是近20年来兴起的人工智能一大重要领域。其主要是指通过让计算机在数据中自动分析获得规律,从而获取“自我学习”的能力,并利用规律对未知数据进行判断和预测的方法。

机器学致可以分为有监督的学习和无监督的学习。有监督的学习是从给定的训练数据集中练出一个函数和目标,当有新的数据到来时,可以由训练得到函数预测目标。有监督的学习要求训练集同时有输入和输出,也就是所谓的特征和目标。而依据预测的结果是离散的还是连续的,将有监督的学习分为两大问题,即统计分类问题和回归分析问题。统计分类的预测结果是离散的,如肿瘤是良性还是恶性等;而回归分析问题目标是连续的,如天气、股价等的预测。

无监督学习的训练集则没有人为标注的结果,这就需要计算机去发现数据间的联系并用来分类等。一种常见的无监督学习是聚类分析(Cluster Analysis),它是将相似的对象通过静态分类的方法分成不同的组别或者是特定的子集,让同一个子集中的数据对象都有一些相似的属性,比较常用的聚类方法是简洁并快速的“K-均值”聚类算法。它基于K个中心并对距离这些中心最近的数据对象进行分类。

机器学习还包括如半监督学习和增强学习等类别。总而言之,机器学习是研究如何使用机器来模拟人类学习活动的一门学科,而其应用随着人工智能研究领域的深入也变得越来越广泛,如模式识别、计算机视觉、语音识别、推荐算法等领域越来越广泛地应用到了机器学习中。

人工神经网络:在脑神经科学领域,人们认为人类的意识及智能行为,都是通过巨大的神经网络传递的,每个神经细胞通过突出与其他神经细胞连接,当通过突触的信号强度超过某个阈值时,神经细胞便会进入激活状态,向所连接的神经细胞一层层传递信号。于1943年提出的基于生物神经元的M-P模型的主要思想就是将神经元抽象为一个多输入单输出的信息处理单元,并通过传递函数f对输入x1,x2…,xn进行处理并模拟神经细胞的激活模式。主要的传递函数有阶跃型、线性型和S型。

在此基础上,对神经网络算法的研究又有诸多进展。日本的福岛教授于1983年基于视觉认知模型提出了卷积神经网络计算模型。通过学习训练获取到卷积运算中所使用的卷积系数,并通过不同层次与自由度的变化,可以得到较为优化的计算结果。而AlphaGo也正是采用了这种深度卷积神经网络(DCNN)模型,提高了AlphaGo的视觉分类能力,也就是所谓的“棋感”,增强了其对全盘决策和把握的能力。

3.人工智能的发展前景

总体来看,人工智能的应用经历了博弈、感知、决策和反馈这几个里程碑。在以上4个领域中,既是纵向发展的过程,也是横向不断改进的过程。

人工智能在博弈阶段,主要是实现逻辑推理等功能,随着计算机处理能力的进步以及深度学习等算法的改进,机器拥有了越来越强的逻辑与对弈能力。在感知领域,随着自然语言处理的进步,机器已经基本能对人类的语音与语言进行感知,并且能够已经对现实世界进行视觉上的感知。基于大数据的处理和机器学习的发展,机器已经能够对周围的环境进行认知,例如微软的Kinect就能够准确的对人的肢体动作进行判断。该领域的主要实现还包括苹果的Siri,谷歌大脑以及无人驾驶汽车中的各种传感器等。在以上两个阶段的基础上,机器拥有了一定的决策和反馈的能力。无人驾驶汽车的蓬勃发展就是这两个里程碑很好的例证。Google的无人驾驶汽车通过各种传感器对周围的环境进行感知并处理人类的语言等指令,利用所收集的信息进行最后的决策,比如操作方向盘、刹车等。

人工智能已经渗透到生活中的各个领域。机器已经能识别语音、人脸以及视频内容等,从而实现各种人际交互的场景。在医学领域,人工智能可以实现自动读片和辅助诊断以及个性化t疗和基因排序等功能。在教育领域,机器也承担了越来越多的辅助教育,智能交互的功能。在交通领域,一方面无人车的发展表明无人驾驶是一个可以期待的未来,另一方面人工智能能够带来更加通畅和智能的交通。另外人工智能在安防、金融等领域也有非常广阔的发展前景。总之,人工智能在一些具有重复性的和具备简单决策的领域已经是一种非常重要的工具,用来帮助人们解决问题,创造价值。

参考文献

[1]阮晓东.从AlphaGo的胜利看人工智能的未来[J].新经济导刊,2016 (6):69-74.

卷积神经网络实现过程范文第5篇

人工智能的概念已提出60年,从原来的理论框架体系的搭建,到实验室关键技术的准备,如今已开始进入全新的发展阶段――产业化。

目前,从基本的算法到脑科学研究,人工智能都还没有突破性进展的可能性。但是,以深度神经网络为代表的人工智能,结合日新月异的大数据、云计算和移动互联网,就可以在未来5到10年改变我们的世界。

人工智能+时代的两大机遇

人工智能不仅将替代简单重复的劳动,还将替代越来越多的复杂的高级脑力活动,创造一个个新的机会。可以说,任何一个行业、企业或今天的创业者,如果不用人工智能改变今天的生产和生活方式,5年后一定会出局。

第一个趋势是以语音为主导、以键盘和触摸为辅助的人机交互时代正在到来。如今越来越多的设备不再需要屏幕,越来越多的场景我们不用直接碰触。比如,想把灯光调亮,想打开五米之外的设备,我们的手没法直接触碰。再如,开车时不方便用手、用眼做其他事情。这时,语音就成为最主要的一个交互方式。

第二个趋势是人工智能正在全球范围内掀起一股浪潮,“人工智能+”的时代到来,而且会比我们想象的还要快。为什么呢?麦肯锡分析认为,当前45%的工作可以被技术自动化,不只是简单重复性的工作,CEO20%的工作也可以被机器取代。《科学》杂志预测,2045年人工智能会颠覆全球50%、中国77%的就业。也就是说,今天的我们3/4的工作30年后会被人工智能取代。埃森哲认为,到2035年人工智能会让12个发达国家经济增长率翻一倍。我国的增长率只有比这还高,才对得起今天的时代机遇。

从科大讯飞的情况可以看出,人工智能将迎来两大产业机遇。

第一,未来3到5年,万物互联的时代到来,以语音为主、键盘触摸为辅的人机交互将广泛应用。第二,未来5到10年,人工智能会像水和电一样进入各行各业,深刻改变我们的生活。

认知智能是最大技术瓶颈

人工智能技术有两种分类方法。一种分为强人工智能和弱人工智能;另一种是讯飞研究院提出的、跟技术演进路径相关的分类,分成计算智能、感知智能和认知智能。

计算智能就是机器能存会算。就像当年IBM的深蓝电脑下象棋超过卡斯帕罗夫,典型的就是因为运算能力强,提前算到了所有的结果。

感知智能,比如语音合成技术,能够让机器开口说话。再如语音识别技术,就像今天的演讲,后台系统把它变成文字,准确率可达95%。

认知智能是让机器具备能理解、会思考的能力。这是最大的挑战,也是大家最热切期待的技术突破。工业革命让我们从繁重的体力劳动中解放出来,未来的认知智能会让人从今天很多复杂的脑力劳动中解放出来。

科大讯飞选择以语音为入口解决认知难题,进行认知革命。以人机交互为入口的目的,就是为了解决自然语言理解的技术难题。这个入口可以把人类的智慧最便捷地汇聚到后台,供机器学习和训练,也可以使后台人工智能的成果最简单直接地输出,从社会不断取得它学习需要的反馈信息,在此基础上实现知识管理和推理学习。

科大讯飞承担的科技部第一个人工智能重大专项――高考机器人。目标是为了“考大学”,但其核心技术正是语言理解、知识表达、联想推理和自主学习。

人工智能技术正走向产业化

目前,科大讯飞的人工智能研究已经取得了阶段性成果。

在教育行业,科大讯飞的机器人通过构建学生全过程的学习数据和老师上课的数据,提升了课堂效率,原来45分钟的课堂,现在15分钟就搞定。因为大量的内容学生都是知道的,老师只需向个别没掌握的学生单独讲授。这样,老师就有时间把课堂的重点放在大家都不了解的知识上,学生可以用大量时间进行启发式学习。借助这些手段,学生的重复性训练可以降低50%以上。

在医疗行业,科大讯飞利用语音解决门诊电子病历,利用人工智能辅助诊疗。学习最顶尖医疗专家知识后的人工智能产品,可以超过一线全科医生的水平。当前,医疗行业一线最缺的是全科医生和儿科医生,引入人工智能技术就可以缓解医疗资源短缺压力。

科大讯飞的人工智能技术还应用在汽车领域。在宝马汽车去年的国际测试中,科大讯飞以86%的准确率名列第一。

在客服领域,机器已经替代掉了30%的人工服务。目前,安徽移动呼叫中心有75%的服务内容已被机器替代。

机器人还将从服务后台走向前端。今年第四季度末或明年,服务机器人将开始在银行和电信营业厅上岗工作,它们不仅好玩、有趣,吸引人气,还能帮客户解决实际问题。

相关期刊更多

数据采集与处理

北大期刊 审核时间1-3个月

中国科学技术协会

遥测遥控

统计源期刊 审核时间1-3个月

中国航天科技集团有限公司

北华大学学报·自然科学版

统计源期刊 审核时间1-3个月

吉林省教育厅