前言:想要写出一篇令人眼前一亮的文章吗?我们特意为您整理了5篇卷积神经网络的深度范文,相信会为您的写作带来帮助,发现更多的写作思路和灵感。
1 研究背景
手写数字识别是一个经典的模式识别问题。从0 到9这10 个阿拉伯数字组成。由于其类别数比较小,它在些运算量很大或者比较复杂的算法中比较容易实现。所以,在模式识别中数字识别一直都是热门的实验对象。卷积神经网络 (Convolutional Neural Networks,CNN),在手写体识别中有着良好的性能。卷积神经网络的神经元是局部连接,神经元之间能够共享权值。深度卷积神经网络不但可以解决浅层学习结构无法自动提取图像特征的问题,并且提高了分类的泛化能力和准确度。
2 深度卷积神经网络
深度卷积神经网络是一种具有多层监督的神经网络,隐含层中的卷积层和池采样层是实现深度卷积神经网络提取特征的核心模块,并通过使用梯度下降算法最小化损失函数来进行权重参数逐层反向调节,再经过迭代训练提高分类精确度。
深度卷积神经网络的首层是输入层,之后是若干个卷积层和若干个子采样层和分类器。分类器一般采用Softmax,再由分类器去输出相应的分类结果。正常情况下,一个卷积后面都跟一个子采样层。基于卷积层里权值共享和局部连接的特性,可以简化网络的样本训练参数。运算之后,获得的结果通过激活函数输出得到特征图像,再将输出值作为子采样层的输入数据。为了实现缩放、平移和扭曲保持不变,在子采样层中将之前一层对应的特征图中相邻特征通过池化操作合并成一个特征,减少特征分辨率。这样,输入的数据就可以立即传送到第一个卷积层,反复进行特征学习。将被标记的样本输入到Softmax分类器中。
CNN 能够简化网络的样本训练参数,降低计算难度。这些良好的性能是网络在有监督方式下学会的,网络的结构主要有局部连接和权值共享两个特点:
2.1 局部连接
深度卷积神经网络中,层与层之间的神经元节点是局部连接,不像BP 神经网络中的连接为全连接。深度卷积神经网络利用局部空间的相关性将相邻层的神经元节点连接相邻的上一层神经元节点。
2.2 权重共享
在深度卷积神经网络中,卷积层中每一个卷积滤波器共享相同参数并重复作用,卷积输入的图像,再将卷积的结果变为输入图像的特征图。之后提取出图像的部分特征。
在得到图像的卷积特征之后,需要用最大池采样方法对卷积特征进行降维。用若干个n×n 的不相交区域来划分卷积特征,降维后的卷积特征会被这些区域中最大的或平均特征来表示。降维后的特征更方便进行分类。
3 实验结果
为了验证卷积神经网络的有效性,本实验中使用以最经典的MNIST 和USPS 库这两个识别库作为评测标准。手写数字MNIST数据库有集60000 个训练样本集,和10000 个测试,每个样本向量为28×28=784维表示。手写数字USPS 数据库含有7291 个训练样本和2007 个测试样本,每个样本向量为16×16=256 维。
表1给出了卷积神经网络在MNIST 和USPS 库上的识别结果。从表1中可知,深度卷积神经网络对MNSIT 库识别率能够达到97.89%,与用BP 算法得到的识别率94.26%相比,提高了两个多百分点。对USPS 库识别率能够达到94.34%,与用BP 算法得到的识别率91.28%相比,也提高了三个多百分点。
因此,使用深度卷积神经网络算法训练在图像识别中获得更高识别率。因此,深度卷积神经网络在识别手写体字符时有着较好的分类效果。
4 总结
本文介绍深度卷积神经网络的理论知识、算法技术和算法的结构包括局部连接、权重共享、最大池采样以及分类器Softmax。本文通过深度卷积神经网络对两组手写识别库实验来验证CNN 有着较低的出错率。
参考文献
[1]赵元庆,吴华.多尺度特征和神经网络相融合的手写体数字识别简介[J].计算机科学,2013,40(08):316-318.
[2]王强.基于CNN的字符识别方法研究[D].天津师范大学,2014.
[3]Krizhevsky A,Sutskever I,Hinton G E.ImageNet Classification with Deep Convolutional Neural Networks.Advances in Neural Information Processing Systems,2012,25(02),1097-1105.
[4]郝红卫, 蒋蓉蓉.基于最近邻规则的神经网络训练样本选择方法[J].自动化学报,2007,33(12):1247-1251.
作者简介
关鑫(1982-),男,黑龙江省佳木斯市人。硕士研究生学历。现为中国电子科技集团公司第五十四研究所工程师。研究方向为计算机软件工程。
关键词:卷积神经网络;深度学习;图像处理;训练时间
中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2016)33-0167-04
如今在机器学习领域中,深度学习方法已经占据了相当重要的地位,通过模仿人X学习方式构造模型,在图像、文本、语音处理方面取得了显著成果[1]。目前应用较为广泛的深度学习模型包含多层感知器模型(MLP)[2],卷积神经网络模型和限制性玻尔兹曼机模型等[4]。多层感知器[2]网络结构的神经节点一般分层排列,主要由输入层,输出层和一些隐层组成,同层之间的神经元节点无连接,相邻的两层神经元进行全连接,前一层的神经元的输出作为后一层神经元的输入,但本身此种算法存在着一些问题,那就是它的学习速度非常慢,其中一个原因就是由于层与层之间进行全连接,所以它所需要训练的参数的规模是非常大的,所以对其进行改进,产生了卷积神经网络模型。卷积神经网络模型在图像识别方面的应用十分广泛[5,8,9]。从它的结构上来看,层与层之间的神经元节点采用局部连接模式,而并非MLP的全连接模型,这样就降低了需要训练的参数的规模。而在它卷积层中,它的每一个滤波器作为卷积核重复作用于整个输入图像中,对其进行卷积,而得出的结果作为输入图像的特征图[6],这样就提取出了图像的局部特征。而由于每一个卷积滤波器共享相同的参数,这样也就大大降低了训练参数的时间成本。而本文,以卷积神经网络为研究对象,在其模型的基础上通过对其结构中卷积核也就是滤波器的大小进行调整并结合卷积核个数调整和gpu加速等已有的训练提速方法,达到降低训练时间并且对识别结果并无太大影响的目的。
1 卷积神经网络
卷积神经网络在MLP的基础上,已经对结构进行了优化,通过层与层之间的局部连接以及权值共享等方式对要训练的参数的进行了大幅减低。
1.1局部连接
BP神经网络中,神经元在本层中呈线性排列状态,层与层之间进行全连接,而在卷积神经网络中,为了减少每层之间的可训练参数数量,对连接方式进行了修改,相对于BP神经网络的全连接,卷积神经网络采取了局部连接的连接方式[7],也就是说按照某种关联因素,本层的神经元只会与上层的部分神经元进行连接。
2.2 权值共享
在CNN中,卷积层中的卷积核也就是滤波器,重复作用在输入图像上,对其进行卷积,最后的输出作为他的特征图,由于每个滤波器共享相同的参数,所以说他们的权重矩阵以及偏置项是相同的。
我们从上图看出,相同箭头连线的权值是共享的,这样在原有的局部连接的基础上我们又降低了每层需要训练的参数的数量。
2.3卷积过程
特征图是通过滤波器按照特定的步长,对输入图像进行滤波,也就是说我们用一个线性的卷积核对输入图像进行卷积然后附加一个偏置项,最后对神经元进行激活。如果我们设第k层的特征图记为[hk],权重矩阵记为[Wk],偏置项记为[bk],那么卷积过程的公式如下所示(双曲函数tanh作为神经元的激活函数):
2.4 最大池采样
通过了局部连接与权值共享等减少连接参数的方式卷积神经网络中还有另外一个重要的概念那就是最大池采样方法,它是一种非线性的采样方法。最大池采样法在对减少训练参数数量的作用体现在两个方面:
1 )它减小了来自m-1层的计算复杂度。
2 )池化的单元具有平移不变性,所以即使图像在滤波后有小的位移,经过池化的特征依然会保持不变。
3卷积神经网络整体构造以及减少训练时间的方法
3.1使用GPU加速
本次论文实验中,使用了theano库在python环境下实现卷积神经网络模型,在lenet手写数字识别模型上进行改进,由于theano库本身支持GPU加速,所以在训练速度上实现了大幅度的提高。
3.2 数据集的预处理
本次实验使用的两个数据集是mnist手写数字库以及cifar_10库
Mnist手写数字库具有60000张训练集以及10000张测试集,图片的像素都为28*28,而cifar_10库是一个用于普适物体识别的数据集,它由60000张32*32像素的RGB彩色图片构成,50000张图片组成训练集,10000张组成测试集。而对于cifar_10数据集来说,由于图片都是RGB的,所以我们在进行实验的时候,先把其转换为灰度图在进行存储。由于实验是在python环境下运行,theano函数库进行算法支持,所以我们把数据集进行处理,此处我们对使用的数据集进行了格式化。格式化的文件包括三个list,分别是训练数据,验证数据和测试数据。而list中每个元素都是由图像本身和它的相对应的标签组成的。以mnist数据集为例,我们包含train_set,valid_set,test_set三个list,每个list中包含两个元素,以训练集为例,第一个元素为一个784*60000的二维矩阵,第二个元素为一个包含60000个元素的列向量,第一个元素的每一行代表一张图片的每个像素,一共60000行,第二个元素就存储了对相应的标签。而我们取训练样本的10%作为验证样本,进行相同的格式化,而测试样本为没有经过训练的10000张图片。在以cifar_10数据集为实验对象时,把其进行灰度化后,进行相同的格式化处理方式。
3.3实验模型结构
本次实验是在python环境下基于theano函数库搭建好的lenet模型进行参数的调整,以达到在实验准确度可接受情况下减少训练时间的目的。
上图为实验中的基础模型举例说明实验过程,首先以mnist数据集为例,我们的输入图像为一个28*28像素的手写数字图像,在第一层中我们进行了卷积处理,四个滤波器在s1层中我们得到了四张特征图。在这里要特别的说明一下滤波器的大小问题,滤波器的大小可根据图像像素大小和卷积神经网络整体结构进行设置,举例说明,假如说我们的输入图像为28*28像素的图像,我们把第一层卷积层滤波器大小设置为5*5,也就是说我们用一个大小为5*5的局部滑动窗,以步长为一对整张图像进行滑动滤波,则滑动窗会有24个不同的位置,也就是说经过卷积处理后的C1层特征图的大小为24*24。此处的滤波器大小可进行调整,本论文希望通过对滤波器大小的调整,已达到减少训练时间的目的,并寻找调整的理论依据。C1层的特征图个数与卷积过程中滤波器数量相同。S1层是C1经过降采样处理后得到的,也就是说四点经过降采样后变为一个点,我们使用的是最大池方法,所以取这四个点的最大值,也就是说S1层图像大小为12*12像素,具有4张特征图。而同理S1层经过卷积处理得到C2层,此时我们滤波器的大小和个数也可以自行设置,得到的C2层有6张特征图,C2到S2层进行降采样处理,最后面的层由于节点个数较少,我们就用MLP方法进行全连接。
3.4实验参数改进分析
由此可见,我们对滤波器的大小以及个数的改变,可以直接影响到卷积训练参数的个数,从而达到减少训练时间的目的。
从另一种角度来看,增大滤波器的大小,实际效果应该相似于缩小输入图像的像素大小,所以这样我们可以预测增大滤波器的大小会减少样本的训练时间,但是这样也可能会降低训练后的分类的准确率,而滤波器的大小是如何影响训练时间以及分类准确率的,我们通过对两种图片库的实验来进行分析。
4 实验结果与分析
4.1以mnist手写数字数据集作为实验数据
我们知道卷积层可训练参数的数字与滤波器的大小和数字有关,所以我们通过对卷积层滤波器大小的变化来寻找较为普遍的可减少训练参数从而达到减少训练时间的目的。在实验记录中,我们表格纵列记录两层卷积层滤波器大小,横列分别为对已经过训练图像识别和对未经过训练的验证图像进行识别的错误率,最后记录每种滤波器大小搭配的使用时间。我们设定每次试验都进行100次重复训练,每次对权重矩阵进行优化。
此处我们记录两层滤波器大小之和作为横坐标,比较滤波器大小与实验之间的关系。两层滤波器大小相加后相同的元素我们把其对应时间做平均。
4.2以cifar_10数据集作为实验数据
同样是以100次循环训练进行测试,通过改变两层中滤波器的大小来寻找减少训练时间的设定。
此处以同样的方法,记录两层滤波器大小之和作为横坐标,比较滤波器大小与实验之间的关系。
4.3实验结果分析
从两组试验中,在不同的数据集下,我们得到了滤波器的大小与训练时间成反比的关系,而在减少了训练时间的同时确实增大了训练的错误率。
5 总结
通过实验结果分析表明,增大卷积层滤波器大小的方法,在此两种数据库的情况下,是有效减小训练时间的方式,而在不同的数据库对分类准确率的影响程度不同,mnist手写数字数据库中图像之间的相似度非常高,所以滤波器的增大对准确率产生的负面影响较小,而ifar_10数据集中图像之间的相似度较小,所以增大滤波器的大小对其分类结果的准确率的负面影响较大。
参考文献:
[1]LeCun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015, 521(7553): 436-444.
[2] Ruck D W, Rogers S K, Kabrisky M. Feature selection using a multilayer perceptron[J]. ]Journal of Neural Network Computing, 1990, 2(2): 40-48.
[3]LeCun Y, Bengio Y. Convolutional networks for images, speech, and time series[J]. The handbook of brain theory and neural networks, 1995, 3361(10): 1995.
[4] Larochelle H, Bengio Y. Classification using discriminative restricted Boltzmann machines[C]//Proceedings of the 25th international conference on Machine learning. ACM, 2008: 536-543.
[5]Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[C]//Advances in neural information processing systems. 2012: 1097-1105.
[6] Zeiler M D, Fergus R. Visualizing and understanding convolutional networks[C]//European Conference on Computer Vision. Springer International Publishing, 2014: 818-833.
[7] Jarrett K, Kavukcuoglu K, Lecun Y. What is the best multi-stage architecture for object recognition?[C]//2009 IEEE 12th International Conference on Computer Vision. IEEE, 2009: 2146-2153.
黑匣认为,复杂神经网络、LSTMs(长短期记忆网络)、注意力模型(Attention Models)等十大趋势将塑造人工智能未来的技术格局。
上述判断来自NIPS(神经信息处理系统) 2015大会。NIPS始于1987年,是人工智能领域两大重要学习会议之一,由于AI的爆炸式发展,近年来逐渐成为许多硅谷公司必须参加的年度会议。在蒙特利尔召开的NIPS 2015吸引了众多AI学界与业界的顶级专家,与会人数接近4000。大会总共收录了403篇论文,其中深度学习课题约占11%。来自Dropbox的高级软件工程师Brad Neuberg分享了他所注意到的十大技术趋势,黑匣将对每种趋势做了详细分析。
1、神经网络的架构正变得越来越复杂
感知和翻译等大多数神经网络的架构正变得越来越复杂,远非此前简单的前馈神经网络或卷积神经网络所能比。特别需要注意的是,神经网络正与不同的技术(如LSTMs、卷积、自定义目标函数等)相混合。
神经网络是多数深度学习项目的根基。深度学习基于人脑结构,一层层互相连接的人工模拟神经元模仿大脑的行为,处理视觉和语言等复杂问题。这些人工神经网络可以收集信息,也可以对其做出反应。它们能对事物的外形和声音做出解释,还可以自行学习与工作。未来的人工智能,最热门的技术趋势是什么?
(人工模拟神经元试图模仿大脑行为|图片来源:Frontiers)
但这一切都需要极高的计算能力。早在80年代初期,Geoffrey Hinton和他的同事们就开始研究深度学习。然而彼时电脑还不够快,不足以处理有关神经网络的这些庞大的数据。当时AI研究的普遍方向也与他们相反,人们都在寻找捷径,直接模拟出行为而不是模仿大脑的运作。
随着计算能力的提升和算法的改进,今天,神经网络和深度学习已经成为人工智能领域最具吸引力的流派。这些神经网络还在变得更复杂,当年“谷歌大脑”团队最开始尝试“无监督学习”时,就动用了1.6万多台微处理器,创建了一个有数十亿连接的神经网络,在一项实验中观看了千万数量级的YouTube图像。
2、酷的人都在用LSTMs
当你阅读本文时,你是在理解前面词语的基础上来理解每个词语的。你的思想具有连续性,你不会丢弃已知信息而从头开始思考。传统神经网络的一大缺陷便是无法做到这一点,而递归神经网络(RNN)能够解决这一问题。
RNN拥有循环结构,可以持续保存信息。过去几年里,RNN在语音识别和翻译等许多问题上取得了难以置信的成功,而成功的关键在于一种特殊的RNN——长短期记忆网络(LSTMs)。
普通的RNN可以学会预测“the clouds are in the sky”中最后一个单词,但难以学会预测“I grew up in France…I speak fluent French。”中最后一个词。相关信息(clouds、France)和预测位置(sky、French)的间隔越大,神经网络就越加难以学习连接信息。这被称为是“长期依赖关系”问题。未来的人工智能,最热门的技术趋势是什么?
(长期依赖问题|图片来源:CSDN)
LSTMs被明确设计成能克服之一问题。LSTMs有四层神经网络层,它们以特殊的方式相互作用。这使得“能记住信息很长一段时间”可以被视作LSTMs的“固有行为”,它们不需要额外学习这一点。对于大多数任务,LSTMs已经取得了非常好的效果。
3、是时候注意“注意力模型(attention models)了
LSTMs是人们使用RNNs的一个飞跃。还有其他飞跃吗?研究者共同的想法是:“还有注意力(attention)!”
“注意力”是指神经网络在执行任务时知道把焦点放在何处。我们可以让神经网络在每一步都从更大的信息集中挑选信息作为输入。
例如,当神经网络为一张图片生成标题时,它可以挑选图像的关键部分作为输入。未来的人工智能,最热门的技术趋势是什么?
(拥有“注意力”的RNN在图像识别中的成功运用|图片来源:Github)
4、神经图灵机依然有趣,但还无法胜任实际工作
当你翻译一句话时,并不会逐个词汇进行,而是会从句子的整体结构出发。机器难以做到这一点,这一挑战被称为“强耦合输出的整体估计”。NIPS上很多研究者展示了对跨时间、空间进行耦合输出的研究。
神经图灵机(Neural Turing Machine)就是研究者们在硅片中重现人类大脑短期记忆的尝试。它的背后是一种特殊类型的神经网络,它们可以适应与外部存储器共同工作,这使得神经网络可以存储记忆,还能在此后检索记忆并执行一些有逻辑性的任务。未来的人工智能,最热门的技术趋势是什么?
(模仿人类短期工作记忆的神经图灵机|图片来源:arXiv)
2014年10月,Google DeepMind公布了一台原型电脑,它可以模仿一些人类大脑短期工作记忆的特性。但直到NIPS2015,所有的神经图灵机都过于复杂,并且只能解决一些“小玩具”问题。在未来它们或将得到极大改进。
5、深度学习让计算机视觉和自然语言处理不再是孤岛
卷积神经网络(CNN)最早出现在计算机视觉中,但现在许多自然语言处理(NLP)系统也会使用。LSTMs与递归神经网络深度学习最早出现在NLP中,但现在也被纳入计算机视觉神经网络。
此外,计算机视觉与NLP的交汇仍然拥有无限前景。想象一下程序为美剧自动嵌入中文字幕的场景吧。
6、符号微分式越来越重要
随着神经网络架构及其目标函数变得日益复杂和自定义,手动推导出“反向传播”(back propagation)的梯度(gradients)也变得更加苦难而且容易出错。谷歌的TensorFlow等最新的工具包已经可以超负荷试验符号微分式,能够自动计算出正确的微分,以确保训练时误差梯度可被反向传播。
7、神经网络模型压缩的惊人成果
多个团队以不同方法大幅压缩了训练一个良好模型所需的素材体量,这些方法包括二值化、固定浮点数、迭代修剪和精细调优步骤等。
这些技术潜在的应用前景广阔,可能将会适应在移动设备上进行复杂模型的训练。例如,不需要延迟就可以得到语音识别结果。此外,如果运算所需要的空间和时间极大降低,我们就可以极高帧率(如30 FPS)查询一个模型,这样,在移动设备上也可以运用复杂神经网络模型,从而近乎实时地完成计算机视觉任务。
8、深度学习和强化学习继续交汇
虽然NIPS 2015上没有什么强化学习(reinforcement learning)的重要成果,但“深度强化学习”研讨会还是展现了深度神经网络和强化学习相结合的前景。
在“端对端”(end-to-end)机器人等领域出现了令人激动的进展,现在机器人已经可以一起运用深度和强化学习,从而将原始感官数据直接转化为实际动作驱动。我们正在超越“分类”等简单工作,尝试将“计划”与“行动”纳入方程。还有大量工作需要完成,但早期的工作已经使人感到兴奋。
9、难道你还没有使用批标准化?
批标准化(batch normalization)现在被视作评价一个神经网络工具包的部分标准,在NIPS 2015上被不断提及。
>> 深度信念网络应用于图像分类的可行性研究 PPP融资模式应用于廉租房建设的可行性研究 超越预算应用于高科技企业研发的可行性研究 网络虚拟游戏应用于法语教学的可行性研究 左手材料应用于隐身领域的可行性研究与分析 3D影像技术应用于体育教学的可行性研究 PLC技术应用于远程抄表的可行性研究 价值投资应用于中国股票市场的可行性研究 将安检系统应用于广州地铁的可行性研究 Solidworks应用于船体生产设计的可行性研究 微信公众平台应用于高校教育领域的可行性研究 超微粉碎技术应用于羊藿的可行性研究 风能、太阳能应用于农业生产的可行性研究 脑电信号应用于消费心理研究可行性研究 硅―改沥青应用于沙漠地区公路的可行性研究 关于无线传感器网络应用于变电站的可行性研究 循证护理模式应用于胸外重症患者中的可行性研究 临床护理路径应用于药物治疗脑出血患者护理的可行性研究 基于数字图像处理的裂缝宽度测量可行性研究 基金积累制应用于新型农村社会养老保险制度的可行性研究 常见问题解答 当前所在位置:l.
[19]曹林林,李海涛, 韩颜顺,等.卷积神经网络在高分遥感影像分类中的应用[EB/OL]..
[20]龚丁禧,曹长荣.基于卷积神经网络的植物叶片分类[J].计算机与现代化,2014(4):1215,19.
关键词:人机大战;人工智能;发展前景
中图分类号:TP391 文献标识码:A
0.引言
2016年3月15日,备受瞩目的“人机大战”终于落下帷幕,最终Google公司开发的“AlphaGo”以4∶1战胜了韩国九段棋手李世h。毫无疑问,这是人工智能历史上一个具有里程碑式的大事件。大家一致认为,人工智能已经上升到了一个新的高度。
这次胜利与1997年IBM公司的“深蓝”战胜国际象棋世界冠军卡斯帕罗不同。主要表现在两个方面:
(1)AlphaGo的胜利并非仅仅依赖强悍的计算能力和庞大的棋谱数据库取胜,而是AlphaGo已经拥有了深度学习的能力,能够学习已经对弈过的棋盘,并在练习和实战中不断学习和积累经验。
(2)围棋比国际象棋更加复杂,围棋棋盘有361个点,其分支因子无穷无尽,19×19格围棋的合法棋局数的所有可能性是幂为171的指数,这样的计算量相当巨大。英国围棋联盟裁判托比表示:“围棋是世界上最为复杂的智力游戏,它简单的规则加深了棋局的复杂性”。因此,进入围棋领域一直被认为是目前人工智能的最大挑战。
简而言之,AlphaGo取得胜利的一个很重要的方面就是它拥有强大的“学习”能力。深度学习是源于人工神经网络的研究,得益于大数据和互联网技术。本文就从人工智能的发展历程与现状入手,在此基础上分析了人工智能的未来发展前景。
1.人工智能的发展历程
AlphaGo的胜利表明,人工智能发展到今天,已经取得了很多卓越的成果。但是,其发展不是一帆风顺的,人工智能是一个不断进步,并且至今仍在取得不断突破的学科。回顾人工智能的发展历程,可大致分为孕育、形成、暗淡、知识应用和集成发展五大时期。
孕育期:1956年以前,数学、逻辑、计算机等理论和技术方面的研究为人工智能的出现奠定了基础。德国数学家和哲学家莱布尼茨把形式逻辑符号化,奠定了数理逻辑的基础。英国数学家图灵在1936年创立了自动机理论(亦称图灵机),1950年在其著作《计算机与智能》中首次提出“机器也能思维”,被誉为“人工智能之父”。总之,这些人为人工智能的孕育和产生做出了巨大的贡献。
形成期:1956年夏季,在美国达特茅斯大学举办了长达2个多月的研讨会,热烈地讨论用机器模拟人类智能的问题。该次会议首次使用了“人工智能”这一术语。这是人类历史上第一次人工智能研讨会,标志着人工智能学科的诞生。其后的十几年是人工智能的黄金时期。在接下来的几年中,在众多科学家的努力下,人工智能取得了瞩目的突破,也在当时形成了广泛的乐观思潮。
暗淡期:20世纪70年代初,即使最杰出的AI程序也只能解决问题中最简单的部分,发展遇到瓶颈也就是说所有的AI程序都只是“玩具”,无法解决更为复杂的问题。随着AI遭遇批评,对AI提供资助的机构也逐渐停止了部分AI的资助。资金上的困难使得AI的研究方向缩窄,缺少了以往的自由探索。
知识应用期:在80年代,“专家系统”(Expect System)成为了人工智能中一个非常主流的分支。“专家系统”是一种程序,为计算机提供特定领域的专门知识和经验,计算机就能够依据一组从专门知识中推演出的逻辑规则在某一特定领域回答或解决问题。不同领域的专家系统基本都是由知识库、数据库、推理机、解释机制、知识获取等部分组成。
集成发展期:得益于互联网的蓬勃发展、计算机性能的突飞猛进、分布式系统的广泛应用以及人工智能多分支的协同发展,人工智能在这一阶段飞速发展。尤其是随着深度学习和人工神经网络研究的不断深入,人工智能在近几十年中取得了长足的进步,取得了令人瞩目的成就。
人工智能发展到今天,出现了很多令人瞩目的研究成果。AlphaGo的胜利就是基于这些研究成果的一个里程碑。当前人工智能的研究热点主要集中在自然语言处理、机器学习、人工神经网络等领域。
2.人工智能l展现状与前景
人工智能当前有很多重要的研究领域和分支。目前,越来越多的AI项目依赖于分布式系统,而当前研究的普遍热点则集中于自然语言处理、机器学习和人工神经网络等领域。
自然语言处理:自然语言处理(Natural Language Processing,简称NLP),是语言学与人工智能的交叉学科,其主要功能就是实现让机器明白人类的语言,这需要将人类的自然语言转化为计算机能够处理的机器语言。
自然语言处理主要包括词法分析、句法分析和语义分析三大部分。词法分析的核心就是分词处理,即单词的边界处理。句法分析就是对自然语言中句子的结构、语法进行分析如辨别疑问句和感叹句等。而语义分析则注重情感分析和整个段落的上下文分析,辨别一些字词在不同的上下文定的语义和情感态度。
当前自然语言的处理主要有两大方向。一种是基于句法-语义规则的理性主义理论,该理论认为需要为计算机制定一系列的规则,计算机在规则下进行推理与判断。因此其技术路线是一系列的人为的语料建设与规则制定。第二种是基于统计学习的经验主义理论,这种理论在最近受到普遍推崇。该理论让计算机自己通过学习并进行统计推断的方式不停地从数据中“学习”语言,试图刻画真实世界的语言现象,从数据中统计语言的规律。
机器学习:机器学习(Machine Learning)是近20年来兴起的人工智能一大重要领域。其主要是指通过让计算机在数据中自动分析获得规律,从而获取“自我学习”的能力,并利用规律对未知数据进行判断和预测的方法。
机器学致可以分为有监督的学习和无监督的学习。有监督的学习是从给定的训练数据集中练出一个函数和目标,当有新的数据到来时,可以由训练得到函数预测目标。有监督的学习要求训练集同时有输入和输出,也就是所谓的特征和目标。而依据预测的结果是离散的还是连续的,将有监督的学习分为两大问题,即统计分类问题和回归分析问题。统计分类的预测结果是离散的,如肿瘤是良性还是恶性等;而回归分析问题目标是连续的,如天气、股价等的预测。
无监督学习的训练集则没有人为标注的结果,这就需要计算机去发现数据间的联系并用来分类等。一种常见的无监督学习是聚类分析(Cluster Analysis),它是将相似的对象通过静态分类的方法分成不同的组别或者是特定的子集,让同一个子集中的数据对象都有一些相似的属性,比较常用的聚类方法是简洁并快速的“K-均值”聚类算法。它基于K个中心并对距离这些中心最近的数据对象进行分类。
机器学习还包括如半监督学习和增强学习等类别。总而言之,机器学习是研究如何使用机器来模拟人类学习活动的一门学科,而其应用随着人工智能研究领域的深入也变得越来越广泛,如模式识别、计算机视觉、语音识别、推荐算法等领域越来越广泛地应用到了机器学习中。
人工神经网络:在脑神经科学领域,人们认为人类的意识及智能行为,都是通过巨大的神经网络传递的,每个神经细胞通过突出与其他神经细胞连接,当通过突触的信号强度超过某个阈值时,神经细胞便会进入激活状态,向所连接的神经细胞一层层传递信号。于1943年提出的基于生物神经元的M-P模型的主要思想就是将神经元抽象为一个多输入单输出的信息处理单元,并通过传递函数f对输入x1,x2…,xn进行处理并模拟神经细胞的激活模式。主要的传递函数有阶跃型、线性型和S型。
在此基础上,对神经网络算法的研究又有诸多进展。日本的福岛教授于1983年基于视觉认知模型提出了卷积神经网络计算模型。通过学习训练获取到卷积运算中所使用的卷积系数,并通过不同层次与自由度的变化,可以得到较为优化的计算结果。而AlphaGo也正是采用了这种深度卷积神经网络(DCNN)模型,提高了AlphaGo的视觉分类能力,也就是所谓的“棋感”,增强了其对全盘决策和把握的能力。
3.人工智能的发展前景
总体来看,人工智能的应用经历了博弈、感知、决策和反馈这几个里程碑。在以上4个领域中,既是纵向发展的过程,也是横向不断改进的过程。
人工智能在博弈阶段,主要是实现逻辑推理等功能,随着计算机处理能力的进步以及深度学习等算法的改进,机器拥有了越来越强的逻辑与对弈能力。在感知领域,随着自然语言处理的进步,机器已经基本能对人类的语音与语言进行感知,并且能够已经对现实世界进行视觉上的感知。基于大数据的处理和机器学习的发展,机器已经能够对周围的环境进行认知,例如微软的Kinect就能够准确的对人的肢体动作进行判断。该领域的主要实现还包括苹果的Siri,谷歌大脑以及无人驾驶汽车中的各种传感器等。在以上两个阶段的基础上,机器拥有了一定的决策和反馈的能力。无人驾驶汽车的蓬勃发展就是这两个里程碑很好的例证。Google的无人驾驶汽车通过各种传感器对周围的环境进行感知并处理人类的语言等指令,利用所收集的信息进行最后的决策,比如操作方向盘、刹车等。
人工智能已经渗透到生活中的各个领域。机器已经能识别语音、人脸以及视频内容等,从而实现各种人际交互的场景。在医学领域,人工智能可以实现自动读片和辅助诊断以及个性化t疗和基因排序等功能。在教育领域,机器也承担了越来越多的辅助教育,智能交互的功能。在交通领域,一方面无人车的发展表明无人驾驶是一个可以期待的未来,另一方面人工智能能够带来更加通畅和智能的交通。另外人工智能在安防、金融等领域也有非常广阔的发展前景。总之,人工智能在一些具有重复性的和具备简单决策的领域已经是一种非常重要的工具,用来帮助人们解决问题,创造价值。
参考文献
[1]阮晓东.从AlphaGo的胜利看人工智能的未来[J].新经济导刊,2016 (6):69-74.