前言:想要写出一篇令人眼前一亮的文章吗?我们特意为您整理了5篇卷积神经网络的发展范文,相信会为您的写作带来帮助,发现更多的写作思路和灵感。
中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2016)35-0209-03
Research and Implementation of Image Classification Based on Convolution Neural Network
WANG Chao
(Information Engineering Institute,East China University of Technology, Nanchang 330013, China)
Abstract: The problem of image classification has been the core problem in computer vision. A good solution is developed by further study which can solve the problem of extracting image features in image classification. In order to learn image features efficiently, constructing the machine learning model with hidden layer as well as training a large number of image data will eventually promote the accuracy of image classification or prediction. This paper is intended as an in-depth Caffe learning framework to construct a small image data-base. The convolutional neural network provided by Caffe framework will make a training analysis of the data set and then extract the information of target image features. These can be used for the final prediction of the target image. Compared with the traditional image classification algorithm, the accuracy of the prediction will be greatly improved.
Key words: image classification; deep learning; Caffe framework; Convolutional Neural Network
S着计算机与互联网技术的快速发展,我们已经进入了一个以图像构建的世界。但是面临有海量图像信息却找不到所需要的数据的困境,因而图像分类技术应运而生。通过各种机器学习算法使计算机自动将各类图像进行有效管理和分类,但是由于图像内容包含着大量复杂且难以描述的信息,图像特征提取和相识度匹配技术也存在一定的难题,要使得计算机能够像人类一样进行分类还是有很大的困难。
深度学习是近十年来人工智能领域取得的重要突破,在图像识别中的应用取得了巨大的进步,传统的机器学习模型属于神经网络模型,神经网络有大量的参数,经常会出现过拟合问题,因而对目标检测准确率上比较低。本文采用卷积神经网络框架,图像特征是从大数据中自动学习得到,而且神经网络的结构深由很多层组成,通过重复利用中间层的计算单元来减少参数,在特征汇聚阶段引入图像中目标的显著信信息,增强了图像的特征表达能力。通过在图像层次稀疏表示中引入图像显著信息,加强了图像特征的语义信息,得到图像显著特征表示,通过实验测试,效果比传统的图像分类算法预测的准确度有明显的提升。
1 基于卷积神经网络的图像分类方法
1.1 人工神经网络
人工神经网络(Artificial Neural Network, ANN)是描述生物神经网络运行机理和工作过程的抽象和简化了的数学物理模型,使用路径权值的有向图来表示模型中的人工神经元节点和神经元之间的连接关系,之后通过硬件或软件程序实现上述有向图的运行[1]。目前最典型的人工神经网络算法包括:目前最典型的人工神经网络有BP网络 [2]Hopfield网络[3]Boltzmann机[4]SOFM网络[5]以及ART网络人工神经网络[6],算法流程图如图1所示[7]。
1.2 卷积神经网络框架的架构
Caffe是Convolutional Architecture for Fast Feature Embedding的缩写[8],意为快速特征嵌入的卷积结构,包含最先进的深度学习算法以及一系列的参考模型,图2表示的是卷积神经网络结构图。Caffe深度学习框架主要依赖CUDA,IntelMKL,OpenCV,glog软件以及caffe文件。本文使用的各个软件版本说明,如表1所示。
Caffe深度学习框架提供了多个经典的卷积神经网络模型,卷积神经网络是一种多层的监督学习神经网络,利用隐含层的卷积层和池采样层是实现卷积神经网络特征提取功能,卷积神经网络模型通过采取梯度下降法最小化损失函数对网络中的权重参数逐层反向调节,通过频繁的迭代训练来提高网络的精度。卷积神经网络使用权值共享,这一结构类似于生物神经网络,从而使网络的复杂程度明显降低,并且权值的数量也有大幅度的减少,本文使用这些模型直接进行训练,和传统的图像分类算法对比,性能有很大的提升,框架系统训练识别基本流程如图3表示。
1.3 图像分类特征提取
卷积神经网络的结构层次相比传统的浅层的神经网络来说,要复杂得多,每两层的神经元使用了局部连接的方式进行连接、神经元共享连接权重以及时间或空间上使用降采样充分利用数据本身的特征,因此决定了卷积神经网络与传统神经网络相比维度大幅度降低,从而降低计算时间的复杂度。卷积神经网络主要分为两个过程,分为卷积和采样,分别的对上层数据进行提取抽象和对数据进行降维的作用。
本文以Caffe深度学习框架中的 CIFAR-10数据集的猫的网络模型为例,如图4所示,对卷积神经网络模型进行训练。CIFAR-10是一个标准图像图像训练集,由六万张图像组成,共有10类(分为飞机,小汽车,鸟,猫,鹿,狗,青蛙,马,船,卡车),每个图片都是32×32像素的RGB彩色图像。通过对数据进行提取和降维的方法来提取图像数据的特征。
2 实验分析
将猫的图像训练集放在train的文件夹下,并统一修改成256×256像素大小,并对猫的图像训练集进行标记,标签为1,运行选择cpu进行训练,每进行10次迭代进行一次测试,测试间隔为10次,初始化学习率为0.001,每20次迭代显示一次信息,最大迭代次数为200次,网络训练的动量为0.9,权重衰退为0.0005,5000次进行一次当前状态的记录,记录显示如下图5所示,预测的准度在98%以上。而相比传统的图像分类算法BP神经网络网络的收敛性慢,训练时间长的,网络的学习和记忆具有不稳定性,因而卷e神经网络框架在训练时间和预测准度上具有非常大的优势。
3 结束语
本文使用Caffe深度学习框架,以CIFAR-10数据集中猫的网络模型为例,构建小型猫的数据集,提取猫的图象特征信息,最后和目标猫图像进行预测,并和传统的图像分类算法进行对比,预测的准确率有很大的提升。
参考文献:
[1] 杨铮, 吴陈沭, 刘云浩. 位置计算: 无线网络定位与可定位性[M]. 北京: 清华大学出版社, 2014.
[2] 丁士折. 人工神经网络基础[M]. 哈尔滨: 哈尔滨工程大学出版社, 2008.
[3] McClelland J L, Rumelhart D E, PDP Research Group. Parallel distributedprocessing[J]. Explorations in the microstructure of cognition, 1986, 2.
[4] Hopfield J J. Neural networks and physical systems with emergent collectivecomputational abilities[J]. Proceedings of the national academy of sciences, 1982, 79(8): 2554-2558.
[5] Ackley D H, Hinton G E, Sejnowski T J. A learning algorithm for boltzmannmachines[J]. Cognitive science, 1985, 9(1): 147-169.
[6] Kohonenmaps T. Self-Organized Formation of Topologically Correct Feature Maps[J]. Biological Cybernetics,1982, 43(1): 59-69.
关键词:卷积神经网络;图像分类;空间变换;可变形卷积
DOIDOI:10.11907/rjdk.171863
中图分类号:TP317.4
文献标识码:A 文章编号:1672-7800(2017)006-0198-04
0 引言
图像分类一直是计算机视觉领域的一个基础而重要的核心问题,具有大量的实际应用场景和案例。很多典型的计算机视觉问题(如物体检测、图像分割)都可以演化为图像分类问题。图像分类问题有很多难点需要解决,观测角度、光照条件的变化、物体自身形变、部分遮挡、背景杂波影响、类内差异等问题都会导致被观测物体的计算机表示(二维或三维数值数组)发生剧烈变化。一个良好的图像分类模型应当对上述情况(以及不同情况的组合)不敏感。使用深度学习尤其是深度卷积神经网络,用大量图像数据进行训练后可以处理十分复杂的分类问题。
卷积神经网络是为识别二维形状而专门设计的一个多层感知器,这种网络结构对平移、缩放、倾斜等扰动具有高度不变性,并且具有强大的特征学习与抽象表达能力,可以通过网络训练获得图像特征,避免了复杂的特征提取与数据重建过程。通过网络层的堆叠,集成了低、中、高层特征表示。AlexNet等网络模型的出F,也推动了卷积网络在海量图像分类领域的蓬勃发展。
1 卷积神经网络
卷积神经网络是人工神经网络的一种,其“局部感知”“权值共享”[1]等特性使之更类似于生物神经网络,网络模型复杂度大大降低,网络训练更容易,多层的网络结构有更好的抽象表达能力,可以直接将图像作为网络输入,通过网络训练自动学习图像特征,从而避免了复杂的特征提取过程。
Yann LeCun等[2]设计的LeNet-5是当前广泛使用的卷积网络结构原型,它包含了卷积层、下采样层(池化层)、全连接层以及输出层,构成了现代卷积神经网络的基本组件,后续复杂的模型都离不开这些基本组件。LeNet-5对手写数字识别率较高,但在大数据量、复杂的物体图片分类方面不足,过拟合也导致其泛化能力较弱。网络训练开销大且受制于计算机性能。
2012年,在ILSVRC竞赛中AlexNet模型[3]赢得冠军,将错误率降低了10个百分点。拥有5层卷积结构的AlexNet模型证明了卷积神经网络在复杂模型下的有效性,并将GPU训练引入研究领域,使得大数据训练时间缩短,具有里程碑意义。AlexNet还有如下创新点:①采用局部响应归一化算法(Local Response Normalization,LRN),增强了模型的泛化能力,有效降低了分类错误率;②使用Dropout技术,降低了神经元复杂的互适应关系,有效避免了过拟合;③为了获得更快的收敛速度,AlexNet使用非线性激活函数ReLU(Rectified Linear Units)来代替传统的Sigmoid激活函数。
Karen等[4]在AlexNet的基础上使用更小尺寸的卷积核级联替代大卷积核,提出了VGG网络。虽然VGG网络层数和参数都比AlexNet多,但得益于更深的网络和较小的卷积核尺寸,使之具有隐式规则作用,只需很少的迭代次数就能达到收敛目的。
复杂的网络结构能表达更高维的抽象特征。然而,随着网络层数增加,参数量也急剧增加,导致过拟合及计算量大增,解决这两个缺陷的根本办法是将全连接甚至一般的卷积转化为稀疏连接。为此,Google团队提出了Inception结构[5],以将稀疏矩阵聚类为较为密集的子矩阵来提高计算性能。以Inception结构构造的22层网络GoogLeNet,用均值池化代替后端的全连接层,使得参数量只有7M,极大增强了泛化能力,并增加了两个辅助的Softmax用于向前传导梯度,避免梯度消失。GoogLeNet在2014年的ILSVRC竞赛中以Top-5错误率仅6.66%的成绩摘得桂冠。
网络层数的增加并非永无止境。随着网络层数的增加,将导致训练误差增大等所谓退化问题。为此,微软提出了一种深度残差学习框架[6],利用多层网络拟合一个残差映射,成功构造出152层的ResNet-152,并在2015年的ILSVRC分类问题竞赛中取得Top-5错误率仅5.71%的成绩。随后,对现有的瓶颈式残差结构进行改进,提出了一种直通结构[7],并基于此搭建出惊人的1001层网络,在CIFAR-10分类错误率仅4.92%。至此,卷积神经网络在越来越“深”的道路上一往直前。
2 可变形的卷积神经网络
2.1 空间变换网络
空间变换网络(Spatial Transformer Network,STN)[8]主要由定位网络(Localisation net)、网格生成器(Grid generator)和可微图像采样(Differentiable Image Sampling)3部分构成,如图1所示。
定位网络将输入的特征图U放入一个子网络(由卷积、全连接等构成的若干层子网络),生成空间变换参数θ。θ的形式可以多样,如需要实现2D仿射变换,那么θ就是一个2×3的向量。
2.3 本文模型
本文以自建的3层卷积网络C3K5(如图6所示)和VGG-16作为基准网络,分别引入空间变换网络、可变形卷积和可变形池化,构造出8个卷积神经网络,用以验证可变形模块对浅层网络和深层网络的影响,如表1所示。
图6中C3K5网络模型包含3个带有ReLU层、LRN层和池化层的卷积模块,卷积层采用步长为1的5×5卷积核,输出保持原大小,池化层采用步长为2核为2×2的最大值池化,即每经过一个卷积模块,特征图缩小为原来的一半。
3 实验与分析
3.1 实验设置
本文实验环境:CPU为Intel i5-7400,8G内存,显卡为GTX1060,采用Cuda8+CuDNN6.0加速。
实验数据集包括公共图像数据集mnist、cifar-10、cifar-100和自建图像数据集pen-7。公共数据集分别有50 000张训练样本图像和10 000张测试样本图像。自建数据集pen-7为京东商城的七类笔图像库,每类有600张图片,图像分辨率为200×200,总计训练样本数3 360,测试样本数840, 图7为其中的14个样本。
3.2 结果与分析
分别将表1中的10个卷积网络应用到mnist、cifar-10、cifar-100和pen-7四个数据集进行训练,batch-size设置100,即每次传入100张图片进行训练,每训练100次测试一次(记为一次迭代),总共迭代100次,取最后10次迭代的准确率计算平均值,得各网络应用在不同数据集的分类结果,如表2所示。
实验结果表明,在卷积网络中引入空间变换网络、用可变形的卷积层和可变形的池化层替换传统的卷积层和池化层,不管是在浅层网络还是在深层网络,都能获得更高的分类准确率,这验证了空间变换网络和可变形卷积(池化)结构,丰富了卷积神经网络的空间特征表达能力,提升了卷积网络对样本的空间多样性变化的鲁棒性。包含3种模块的网络获得了最高的分类精度,使空间变换网络、可变形卷积层和可变形池化层在更多应用场景中并驾齐驱成为可能。
4 结语
通过在现有卷积神经网络中引入空间变换网络、可变形的卷积层和可变形的池化层,使得卷积网络在mnist、cifar-10、cifar-100及自建的pen-7数据集中获得了更高的分类精度,包含3种模块的网络获得了最高分类精度,证明了空间变换网络、可变形的卷积层和可变形池化层都能丰富网络的空间特征表达能力,协同应用于图像分类工作,这为后续研究打下了坚实的基础。
参考文献:
[1]BOUVRIE J. Notes on convolutional neural networks[J].Neural Nets,2006(1):159-164.
[2]Y LECUN,L BOTTOU,Y BENGIO,et al.Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.
[3]KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]. International Conference on Neural Information Processing Systems. Curran Associates Inc,2012:1097-1105.
[4]SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[J]. Computer Science, 2014(6):1211-1220.
[5]SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions[J]. CVPR, 2015(3):1-9.
[6]HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]. Computer Vision and Pattern Recognition. IEEE, 2015:770-778.
[7]HE K, ZHANG X, REN S, et al. Identity mappings in deep residual networks[J]. arXiv,2016(1603):5-27.
[8]JADERBERG M, SIMONYAN K, ZISSERMAN A, et al. Spatial transformer networks[J].Computer Science, 2015(5):1041-1050.
[9]DAI J, QI H, XIONG Y, et al. Deformable convolutional networks[J]. arXiv: 2017(1703):62-111.
黑匣认为,复杂神经网络、LSTMs(长短期记忆网络)、注意力模型(Attention Models)等十大趋势将塑造人工智能未来的技术格局。
上述判断来自NIPS(神经信息处理系统) 2015大会。NIPS始于1987年,是人工智能领域两大重要学习会议之一,由于AI的爆炸式发展,近年来逐渐成为许多硅谷公司必须参加的年度会议。在蒙特利尔召开的NIPS 2015吸引了众多AI学界与业界的顶级专家,与会人数接近4000。大会总共收录了403篇论文,其中深度学习课题约占11%。来自Dropbox的高级软件工程师Brad Neuberg分享了他所注意到的十大技术趋势,黑匣将对每种趋势做了详细分析。
1、神经网络的架构正变得越来越复杂
感知和翻译等大多数神经网络的架构正变得越来越复杂,远非此前简单的前馈神经网络或卷积神经网络所能比。特别需要注意的是,神经网络正与不同的技术(如LSTMs、卷积、自定义目标函数等)相混合。
神经网络是多数深度学习项目的根基。深度学习基于人脑结构,一层层互相连接的人工模拟神经元模仿大脑的行为,处理视觉和语言等复杂问题。这些人工神经网络可以收集信息,也可以对其做出反应。它们能对事物的外形和声音做出解释,还可以自行学习与工作。未来的人工智能,最热门的技术趋势是什么?
(人工模拟神经元试图模仿大脑行为|图片来源:Frontiers)
但这一切都需要极高的计算能力。早在80年代初期,Geoffrey Hinton和他的同事们就开始研究深度学习。然而彼时电脑还不够快,不足以处理有关神经网络的这些庞大的数据。当时AI研究的普遍方向也与他们相反,人们都在寻找捷径,直接模拟出行为而不是模仿大脑的运作。
随着计算能力的提升和算法的改进,今天,神经网络和深度学习已经成为人工智能领域最具吸引力的流派。这些神经网络还在变得更复杂,当年“谷歌大脑”团队最开始尝试“无监督学习”时,就动用了1.6万多台微处理器,创建了一个有数十亿连接的神经网络,在一项实验中观看了千万数量级的YouTube图像。
2、酷的人都在用LSTMs
当你阅读本文时,你是在理解前面词语的基础上来理解每个词语的。你的思想具有连续性,你不会丢弃已知信息而从头开始思考。传统神经网络的一大缺陷便是无法做到这一点,而递归神经网络(RNN)能够解决这一问题。
RNN拥有循环结构,可以持续保存信息。过去几年里,RNN在语音识别和翻译等许多问题上取得了难以置信的成功,而成功的关键在于一种特殊的RNN——长短期记忆网络(LSTMs)。
普通的RNN可以学会预测“the clouds are in the sky”中最后一个单词,但难以学会预测“I grew up in France…I speak fluent French。”中最后一个词。相关信息(clouds、France)和预测位置(sky、French)的间隔越大,神经网络就越加难以学习连接信息。这被称为是“长期依赖关系”问题。未来的人工智能,最热门的技术趋势是什么?
(长期依赖问题|图片来源:CSDN)
LSTMs被明确设计成能克服之一问题。LSTMs有四层神经网络层,它们以特殊的方式相互作用。这使得“能记住信息很长一段时间”可以被视作LSTMs的“固有行为”,它们不需要额外学习这一点。对于大多数任务,LSTMs已经取得了非常好的效果。
3、是时候注意“注意力模型(attention models)了
LSTMs是人们使用RNNs的一个飞跃。还有其他飞跃吗?研究者共同的想法是:“还有注意力(attention)!”
“注意力”是指神经网络在执行任务时知道把焦点放在何处。我们可以让神经网络在每一步都从更大的信息集中挑选信息作为输入。
例如,当神经网络为一张图片生成标题时,它可以挑选图像的关键部分作为输入。未来的人工智能,最热门的技术趋势是什么?
(拥有“注意力”的RNN在图像识别中的成功运用|图片来源:Github)
4、神经图灵机依然有趣,但还无法胜任实际工作
当你翻译一句话时,并不会逐个词汇进行,而是会从句子的整体结构出发。机器难以做到这一点,这一挑战被称为“强耦合输出的整体估计”。NIPS上很多研究者展示了对跨时间、空间进行耦合输出的研究。
神经图灵机(Neural Turing Machine)就是研究者们在硅片中重现人类大脑短期记忆的尝试。它的背后是一种特殊类型的神经网络,它们可以适应与外部存储器共同工作,这使得神经网络可以存储记忆,还能在此后检索记忆并执行一些有逻辑性的任务。未来的人工智能,最热门的技术趋势是什么?
(模仿人类短期工作记忆的神经图灵机|图片来源:arXiv)
2014年10月,Google DeepMind公布了一台原型电脑,它可以模仿一些人类大脑短期工作记忆的特性。但直到NIPS2015,所有的神经图灵机都过于复杂,并且只能解决一些“小玩具”问题。在未来它们或将得到极大改进。
5、深度学习让计算机视觉和自然语言处理不再是孤岛
卷积神经网络(CNN)最早出现在计算机视觉中,但现在许多自然语言处理(NLP)系统也会使用。LSTMs与递归神经网络深度学习最早出现在NLP中,但现在也被纳入计算机视觉神经网络。
此外,计算机视觉与NLP的交汇仍然拥有无限前景。想象一下程序为美剧自动嵌入中文字幕的场景吧。
6、符号微分式越来越重要
随着神经网络架构及其目标函数变得日益复杂和自定义,手动推导出“反向传播”(back propagation)的梯度(gradients)也变得更加苦难而且容易出错。谷歌的TensorFlow等最新的工具包已经可以超负荷试验符号微分式,能够自动计算出正确的微分,以确保训练时误差梯度可被反向传播。
7、神经网络模型压缩的惊人成果
多个团队以不同方法大幅压缩了训练一个良好模型所需的素材体量,这些方法包括二值化、固定浮点数、迭代修剪和精细调优步骤等。
这些技术潜在的应用前景广阔,可能将会适应在移动设备上进行复杂模型的训练。例如,不需要延迟就可以得到语音识别结果。此外,如果运算所需要的空间和时间极大降低,我们就可以极高帧率(如30 FPS)查询一个模型,这样,在移动设备上也可以运用复杂神经网络模型,从而近乎实时地完成计算机视觉任务。
8、深度学习和强化学习继续交汇
虽然NIPS 2015上没有什么强化学习(reinforcement learning)的重要成果,但“深度强化学习”研讨会还是展现了深度神经网络和强化学习相结合的前景。
在“端对端”(end-to-end)机器人等领域出现了令人激动的进展,现在机器人已经可以一起运用深度和强化学习,从而将原始感官数据直接转化为实际动作驱动。我们正在超越“分类”等简单工作,尝试将“计划”与“行动”纳入方程。还有大量工作需要完成,但早期的工作已经使人感到兴奋。
9、难道你还没有使用批标准化?
批标准化(batch normalization)现在被视作评价一个神经网络工具包的部分标准,在NIPS 2015上被不断提及。
关键词:人工智能 机器学习 机器人情感获得 发展综述
中图分类号:TP18 文献标识码:A 文章编号:1003-9082 (2017) 04-0234-01
引言
人类自从工业革命结束之后,就已然开始了对人工智能的探索,究其本质,实际上就是对人的思维进行模仿,以此代替人类工作。人工智能的探索最早可以追溯到图灵时期,那时图灵就希望未来的智能系统能够像人一样思考。在20世纪五十年代,人工智能被首次确定为一个新兴的学科,并吸引了大批的学者投入到该领域的研究当中。经过长时间的探索和尝试,人工智能的许多重要基本理论已经形成,如模式识别、特征表示与推理、机器学习的相关理论和算法等等。进入二十一世纪以来,随着深度学习与卷积神经网络的发展,人工智能再一次成为研究热点。人工智能技术与基因过程、纳米科学并列为二十一世纪的三大尖端技术, 并且人工智能涉及的学科多,社会应用广泛,对其原理和本质的理解也更为复杂。 一、人工智能的发展历程
回顾人工智能的产生与发展过程 ,可以将其分为:初期形成阶段,综合发展阶段和应用阶段。
1.初期形成阶段
人工智能这一思想最早的提出是基于对人脑神经元模型的抽象。其早期工作被认为是由美国的神经学家和控制论学者 Warren McCulloch与Walter Pitts共同完成的。在1951年,两名普林斯顿大学的研究生制造出了第一台人工神经元计算机。而其真正作为一个新的概念被提出是在1956年举行的达茅斯会议上。由麦卡锡提议并正式采用了“人工智能”(Artificial Intelligence)砻枋稣庖谎芯咳绾斡没器来模拟人类智能的新兴学科。1969年的国际人工智能联合会议标志着人工智能得到了国际的认可。至此,人工智能这一概念初步形成,也逐渐吸引了从事数学、生物、计算机、神经科学等相关学科的学者参与该领域的研究。
2.综合发展阶段
1.7 7年, 费根鲍姆在第五届国际人工智能联合会议上正式提出了“知识工程”这一概念。而后其对应的专家系统得到发展,许多智能系统纷纷被推出,并应用到了人类生活的方方面面。20世纪80年代以来,专家系统逐步向多技术、多方法的综合集成与多学科、多领域的综合应用型发展。大型专家系统开发采用了多种人工智能语言、多种知识表示方法、多种推理机制和多种控制策略相结合的方式, 并开始运用各种专家系统外壳、专家系统开发工具和专家系统开发环境等等。在专家系统的发展过程中,人工智能得到了较为系统和全面的综合发展,并能够在一些具体的任务中接近甚至超过人类专家的水平。
3.应用阶段
进入二十一世纪以后,由于深度人工神经网络的提出,并在图像分类与识别的任务上远远超过了传统的方法,人工智能掀起了前所未有的。2006年,由加拿大多伦多大学的Geoffery Hinton及其学生在《Science》杂志上发表文章,其中首次提到了深度学习这一思想,实现对数据的分级表达,降低了经典神经网络的训练难度。并随后提出了如深度卷积神经网络(Convolutional Neural Network, CNN),以及区域卷积神经网络(Region-based Convolutional Neural Network, R-CNN),等等新的网络训练结构,使得训练和测试的效率得到大幅提升,识别准确率也显著提高。
二、人工智能核心技术
人工智能由于其涉及的领域较多,内容复杂,因此在不同的应用场景涉及到许多核心技术,这其中如专家系统、机器学习、模式识别、人工神经网络等是最重要也是发展较为完善的几个核心技术。
1.专家系统
专家系统是一类具有专门知识和经验的计算机智能程序系统,通过对人类专家的问题求解能力建模,采用人工智能中的知识表示和知识推理技术来模拟通常由专家才能解决的复杂问题,达到具有与专家同等解决问题能力的水平。对专家系统的研究,是人工智能中开展得较为全面、系统且已经取得广泛应用的技术。许多成熟而先进的专家系统已经被应用在如医疗诊断、地质勘测、文化教育等方面。
2.机器学习
机器学习是一个让计算机在非精确编程下进行活动的科学,也就是机器自己获取知识。起初,机器学习被大量应用在图像识别等学习任务中,后来,机器学习不再限于识别字符、图像中的某个目标,而是将其应用到机器人、基因数据的分析甚至是金融市场的预测中。在机器学习的发展过程中,先后诞生了如凸优化、核方法、支持向量机、Boosting算法等等一系列经典的机器学习方法和理论。机器学习也是人工智能研究中最为重要的核心方向。
3.模式识别
模式识别是研究如何使机器具有感知能力 ,主要研究图像和语音等的识别。其经典算法包括如k-means,主成分分析(PCA),贝叶斯分类器等等。在日常生活各方面以及军事上都有广大的用途。近年来迅速发展起来应用模糊数学模式、人工神经网络模式的方法逐渐取代传统的基于统计学习的识别方法。图形识别方面例如识别各种印刷体和某些手写体文字,识别指纹、癌细胞等技术已经进入实际应用。语音识别主要研究各种语音信号的分类,和自然语言理解等等。模式识别技术是人工智能的一大应用领域,其非常热门的如人脸识别、手势识别等等对人们的生活有着十分直接的影响。
4.人工神经网络
人工神经网络是在研究人脑的结构中得到启发, 试图用大量的处理单元模仿人脑神经系统工程结构和工作机理。而近年来发展的深度卷积神经网络(Convolutional neural networks, CNNs)具有更复杂的网络结构,与经典的机器学习算法相比在大数据的训练下有着更强的特征学习和表达能力。含有多个隐含层的神经网络能够对输入原始数据有更抽象喝更本质的表述,从而有利于解决特征可视化以及分类问题。另外,通过实现“逐层初始化”这一方法,实现对输入数据的分级表达,可以有效降低神经网络的训练难度。目前的神经网络在图像识别任务中取得了十分明显的进展,基于CNN的图像识别技术也一直是学术界与工业界一致追捧的热点。
三、机器人情感获得
1.智能C器人现状
目前智能机器人的研究还主要基于智能控制技术,通过预先定义好的机器人行动规则,编程实现复杂的自动控制,完成机器人的移动过程。而人类进行动作、行为的学习主要是通过模仿及与环境的交互。从这个意义上说,目前智能机器人还不具有类脑的多模态感知及基于感知信息的类脑自主决策能力。在运动机制方面,目前几乎所有的智能机器人都不具备类人的外周神经系统,其灵活性和自适应性与人类运动系统还具有较大差距。
2.机器人情感获得的可能性
人脑是在与外界永不停息的交互中,在高度发达的神经系统的处理下获得情感。智能机器人在不断的机器学习和大数据处理中,中枢处理系统不断地自我更新、升级,便具备了获得情感的可能性及几率。不断地更新、升级的过程类似于生物的进化历程,也就是说,智能机器人有充分的可能性获得与人类同等丰富的情感世界。
3.机器人获得情感的利弊
机器人获得情感在理论可行的情况下,伴之而来的利弊则众说纷纭。一方面,拥有丰富情感世界的机器人可以带来更多人性化的服务,人机合作也可进行地更加深入,可以为人类带来更为逼真的体验和享受。人类或可与智能机器人携手共创一个和谐世界。但是另一方面,在机器人获得情感时,机器人是否能彻底贯彻人类命令及协议的担忧也迎面而来。
4.规避机器人情感获得的风险
规避智能机器人获得情感的风险应预备强制措施。首先要设计完备的智能机器人情感协议,将威胁泯灭于未然。其次,应控制智能机器人的能源获得,以限制其自主活动的能力,杜绝其建立独立体系的可能。最后,要掌控核心武器,必要时强行停止运行、回收、甚至销毁智能机器人。
三、总结
本文梳理了人工智能的发展历程与核心技术,可以毋庸置疑地说,人工智能具有极其广阔的应用前景,但也伴随着极大的风险。回顾其发展历程,我们有理由充分相信,在未来人工智能的技术会不断完善,难题会被攻克。作为世界上最热门的领域之一,在合理有效规避其风险的同时,获得情感的智能机器人会造福人类,并极大地帮助人们的社会生活。
参考文献
[1]韩晔彤.人工智能技术发展及应用研究综述[J].电子制作,2016,(12):95.
[2]曾毅,刘成林,谭铁牛.类脑智能研究的回顾与展望[J].计算机学报,2016,(01):212-222.
[3]张越.人工智能综述:让机器像人类一样思考
>> 用于脑运作分析的前向网络样本重组树生成算法研究 基于三角构成规则的加权有向网络拓扑生成算法 适用于网络渐进传输的多分辨率曲线生成算法 全排列生成算法比较分析 KenKen问题的生成算法研究 曲线生成算法的文献综述 基于列生成算法的集装箱班轮运输网络优化 基于全卷积神经网络的图像缩略图生成算法 传感器网络中一种基于编码的MAC生成算法 数据库关键词检索中候选元组集连接树生成算法的研究 基于分类随机算法的试卷生成算法研究 分析基于列生成算法的动车组检修计划优化 AOS自相似业务流等时帧生成算法的Matlab仿真分析 关于传统空间缓冲区生成算法的分析 基于Bresenham的直线快速生成算法 题库系统中试卷生成算法的改进 一种可用于脑神经网络分析的有向网络分解算法 形式概念演化生成算法 MPI通信代码自动生成算法 一种启发式双代号网络图自动生成算法 常见问题解答 当前所在位置:l.(Xie Qin. Framework of Brain Information Processing[Z].[2013-10-21]. .)
[30]谢勤.WAP算法连续化及其应用[C].毕业论文,2004.
[31]谢勤.一种可用于脑神经网络分析的有向网络分解算法[J].数字化用户,2014,3:113-116.(Xie Qin. An Arithmetic For Neural Network Analysis: From Directed Graph To FFN Trees [J].Digitization user,2014, 3:113-116.)
[32]谢勤.一种可用于脑神经网络分析的有向网络分解算法[C].第八届海内外华人神经科学家研讨会论文集.北京:科学出版社,2014.(Xie Qin. An Arithmetic For Neural Network Analysis: From Directed Graph To FFN Trees [C]. Proceedings of Symposium for Chinese Neuroscientists Worldwide 2014. Beijing: Science Press. 2014.)
[33]谢勤.用于脑运作分析的前向网络样本重组树生成算法研究[C].电子技术与软件工程,2016,4:258-264.(Xie Qin. FeedForward Network Sample Recombination Tree Generating Arithmetic(DG-FFN SR Trees Arithmetic) And Generation Of Sample Recombination Graph [J]. Electronic Technology & Software Engineering, 2016,4:258-264.)
(通讯作者:谢勤)
作者简介
谢勤(1982-),男,A南理工大学硕士,中国神经科学学会会员,工程师,近年在亚组委信息技术部完成核心信息系统――计时记分和成绩处理系统项目实施管理方面的工作,其中计时记分系统投资一亿。主要研究方向为计算机科学与工程、人工智能、神经生物学。
作者单位
1.广州市科技和信息化局 广东省广州市 510000
2.第16届亚运会组委会信息技术部 广东省广州市 510000
3.广州生产力促进中心 广东省广州市 510000
4.广州市科学技术信息研究所 广东省广州市 510000
5.广州市科技创新委员会 广东省广州市 510000