前言:想要写出一篇令人眼前一亮的文章吗?我们特意为您整理了5篇卷积神经网络的概念范文,相信会为您的写作带来帮助,发现更多的写作思路和灵感。
关键词:深度学习;行为识别;神经网络
1 概述
动作行为识别是计算机视觉领域中的一个研究热点,已经广泛应用于智能监控、人机交互、视频检索等领域中[1]。动作行为识别技术是通过对视频或者图像中人体动作行为做出有意义的判断。有效表达图像(视频)中的实际目标和场景内容是最基本,最核心的问题。因此,对于特征的构建和选择得到广泛关注,例如STIP、SIFT、MSER等。但是,能通过无监督方式让机器自动从样本中学习到表征样本的特征,会让人们更好地利用计算机来实现人的视觉功能。而深度学习作为神经网络的延伸和发展,是通过逐层构建一个多层网络来使得机器自动学习到隐含在数据内部的关系,从而让学习到的特征更加准确性。
文章旨在探讨深度学习与机器学习(神经网络)之间的关系,并且介绍深度学习的由来、概念和原理;同时介绍目前深度学习在计算机视觉中的应用。最后提出深度学习目前发展所面临的问题,以及对未来的展望。
2 深度学习
2.1 深度学习概述
深度学习源于人工神经网络的研究,是机器学习的拓展。深度学习是经过组合低层特征来形成更加抽象的属性类别和特征,从中发现原始数据的特征表征[2]。现在用于动作行为识别的技术是通过“动作表征”+“动作分类器”的框架来进行行为识别的。其中“动作表征”是人们手动设计特征获取到的,也就是在目前识别框架内存在一个对动作图像(视频)的预处理过程。
深度学习和浅层学习相对。目前许多学习算法是浅层网络学习方法,具有一定的局限性,例如在样本有限的状况下,表示复杂函数的能力有限制,且对复杂分类问题的泛化能力也会受到一定约束[3]。而深度学习通过学习深层非线性网络结构,达到复杂函数逼近,又能在样本少的情况下学习原始数据的特征。BP算法作为传统神经网络的典型算法,虽然训练多层网络,但仅含几层网络,训练方法很不理想[3]。因为其输入和输出间非线性映射让网络误差函数形成含多个极小点的非线性空间,因而经常收敛到局部最小,且随着网络层数的增加,容易过拟合。而深度学习可以获得分布式表示,通过逐层学习算法来得到原始输入数据的主要变量。通过深度学习的非监督训练完成,同时利用生成性训练避免因函数表达能力过强而出现过拟合情况。
2.2 深度学习原理
传统机器学习仅含单层非线性变换的浅层网络结构,而且浅层模型单一。这对于深度网络来说易造成陷入最优或产生梯度分散等问题。因此,Hinton等人在基于深度置信网(DBNs)的情况下提出非监督贪婪逐层训练算法,随后提出了多层次自动编码器深层结构,这给解决深层网络结构相关的优化难题带来了希望。此外Lecun等人提出的卷积神经网络是第一个多层次结构的学习算法。同时深度学习还出现了许多结构:多层感知机、去噪自动编码器、稀疏编码等。
卷积神经网络是第一个真正采用多层次网络结构,具有鲁棒性的深度学习算法,通过探究数据在空间上的相关性,减少训练参数的数量。而且卷积神经网络(CNN)适应性强,善于发现数据的局部特征。它的权重共享结构降低了网络模型的复杂度,减少了权值的数量,使得卷积神经网络在模式识别中取得了很好的结果。
自动编码器的核心关键是将原始图像(视频)输入信号进行编码,使用编码后的信号来重建原始信号,使得两者之间的重建误差最小。通过将原始信号编码成另一形式,能够有效地提取信号中的主要信息,能够简洁地表达原始图像(视频)的特征。
3 深度学习的应用
3.1 语音识别
从2009年开始,微软研究院语音识别专家通过与Hinton合作,首先将RBM和DBN引入到语音识别声学模型训练中,使得语音识别的错误率相对减低30%,这彻底改变了语音识别原有的技术框架。在国际上,IBM、google等公司都快速进行了DNN语音识别的研究,并且速度飞快。国内方面,阿里巴巴,科大讯飞、百度、中科院自动化所等公司或研究单位,也在进行深度学习在语音识别上的研究。
3.2 视频中的动作行为识别
准确迅速识别视频中人的动作行为对于视频搜索和视频监控具有划时代的意义。最近几年,深度学习技术被应用于视频动作行为识别中。如Ji等人[4]提出多层网络的3D卷积神经网络来学习视频中的时空特征,并通过卷积来实现对整个视频特征的学习,从而代替之前的时空兴趣点检测和特征描述提取。在TRECVID数据库上进行的实验取得了不错效果。
4 结束语
文章对深度学习的主要概念进行了全面阐述,包括其由来、原理、研究进展和相应的应用等。在很多领域中,深度学习都表现了潜在的巨大价值,但深度学习作为浅层学习的延伸,仍处于发展阶段,还有很多问题值得我们深入探讨:
(1)我们需要了解深度学习的样本复杂度,需要多少训练样本才能学习到足够的深度模型。
(2)在推进深度学习的学习理论和计算理论的同时,我们是否可以建立一个通用的深度学习网络模型,作为统一的框架来处理语音、图像和语言。
(3)神经网络具有前馈性连接和反馈性连接,可是我们研究的深度网络中还没有加入反馈连接,这些都给深度学习的研究带来了严峻的挑战。
参考文献
[1]王亮,胡卫明,谭铁牛.人运动的视觉分析综述[J].计算机学报,2002,25(3):225-237.
[2]余凯,贾磊,陈雨强.深度学习的昨天、今天和明天[J].计算机研究与发展,2013,50(9):1799-1804.
>> 用于脑运作分析的前向网络样本重组树生成算法研究 基于三角构成规则的加权有向网络拓扑生成算法 适用于网络渐进传输的多分辨率曲线生成算法 全排列生成算法比较分析 KenKen问题的生成算法研究 曲线生成算法的文献综述 基于列生成算法的集装箱班轮运输网络优化 基于全卷积神经网络的图像缩略图生成算法 传感器网络中一种基于编码的MAC生成算法 数据库关键词检索中候选元组集连接树生成算法的研究 基于分类随机算法的试卷生成算法研究 分析基于列生成算法的动车组检修计划优化 AOS自相似业务流等时帧生成算法的Matlab仿真分析 关于传统空间缓冲区生成算法的分析 基于Bresenham的直线快速生成算法 题库系统中试卷生成算法的改进 一种可用于脑神经网络分析的有向网络分解算法 形式概念演化生成算法 MPI通信代码自动生成算法 一种启发式双代号网络图自动生成算法 常见问题解答 当前所在位置:l.(Xie Qin. Framework of Brain Information Processing[Z].[2013-10-21]. .)
[30]谢勤.WAP算法连续化及其应用[C].毕业论文,2004.
[31]谢勤.一种可用于脑神经网络分析的有向网络分解算法[J].数字化用户,2014,3:113-116.(Xie Qin. An Arithmetic For Neural Network Analysis: From Directed Graph To FFN Trees [J].Digitization user,2014, 3:113-116.)
[32]谢勤.一种可用于脑神经网络分析的有向网络分解算法[C].第八届海内外华人神经科学家研讨会论文集.北京:科学出版社,2014.(Xie Qin. An Arithmetic For Neural Network Analysis: From Directed Graph To FFN Trees [C]. Proceedings of Symposium for Chinese Neuroscientists Worldwide 2014. Beijing: Science Press. 2014.)
[33]谢勤.用于脑运作分析的前向网络样本重组树生成算法研究[C].电子技术与软件工程,2016,4:258-264.(Xie Qin. FeedForward Network Sample Recombination Tree Generating Arithmetic(DG-FFN SR Trees Arithmetic) And Generation Of Sample Recombination Graph [J]. Electronic Technology & Software Engineering, 2016,4:258-264.)
(通讯作者:谢勤)
作者简介
谢勤(1982-),男,A南理工大学硕士,中国神经科学学会会员,工程师,近年在亚组委信息技术部完成核心信息系统――计时记分和成绩处理系统项目实施管理方面的工作,其中计时记分系统投资一亿。主要研究方向为计算机科学与工程、人工智能、神经生物学。
作者单位
1.广州市科技和信息化局 广东省广州市 510000
2.第16届亚运会组委会信息技术部 广东省广州市 510000
3.广州生产力促进中心 广东省广州市 510000
4.广州市科学技术信息研究所 广东省广州市 510000
5.广州市科技创新委员会 广东省广州市 510000
2. 应用领域安防
实时从视频中检测出行人和车辆。
自动找到视频中异常的行为(比如,醉酒的行人或者逆行的车辆),并及时发出带有具体地点方位信息的警报。
自动判断人群的密度和人流的方向,提前发现过密人群带来的潜在危险,帮助工作人员引导和管理人流。
医疗
对医学影像进行自动分析的技术。这些技术可以自动找到医学影像中的重点部位,并进行对比比分析。
通过多张医疗影像重建出人体内器官的三维模型,帮助医生设计手术,确保手术
为我们每个人提供康建议和疾病风险预警,从而让我们生活得更加健康。
智能客服
智能客服可以像人一样和客户交流沟通。它可以听懂客户的问题,对问题的意义进行分析(比如客户是询问价格呢还是咨询产品的功能呢),进行准确得体并且个性化的回应。
自动驾驶
现在的自动驾驶汽车通过多种传感器,包括视频摄像头、激光雷达、卫星定位系统(北斗卫星导航系统BDS、全球定位系统GPS等)等,来对行驶环境进行实时感知。智能驾驶系统可以对多种感知信号进行综合分析,通过结合地图和指示标志(比如交通灯和路牌),实时规划驾驶路线,并发出指令,控制车子的运行。
工业制造
帮助工厂自动检测出形态各异的缺陷
3. 概念什么是人工智能?
人工智能是通过机器来模拟人类认知能力的技术。
人工智能的三种训练方式分别是监督学习、非监督学习、强化学习。下文会一一介绍。
二、这是不是鸾尾花(分类器)1. 特征提取人类感官特征
花瓣数量、颜色
人工设计特征
先确定哪些特征,再通过测量转化为具体数值
深度学习特征
这里先不提及,文章后面会说
2. 感知器
老师给了一道题:
要区分两种鸾尾花,得画出一条直线区分两类花,你可以画出无数条直线,但是哪条才是最好的呢?
怎么办呢?我可是学渣啊,靠蒙!
随便找三个数a=0.5、b=1.0、c=-2 带入 y = ax[1] + bx[2] + c,
每朵花的两个特征也代入x[1]、x[2],比如带入(4, 1) 得出 y[预测] = 1,此时 y[实际] = 1 (样本设定变色鸾尾花为 1,山鸾尾为 -1 ),所以y[实际] – y[预测] = 0.
重复以上两步,得出所有的『实际值和预测值的差距的综合,记为 Loss1
可怎么知道是不是最优的直线呢?继续猜啊!继续懵!像猜世界杯一样猜就好了。
通过沿 y = ax[1] + bx[2] + c 梯度(梯度就是求导数,高中有学的!)下降的方向继续猜数字,具体过程大概是这样子的:
上述所属的实际值和预测值的差距 实际上是一种损失函数,还有其他的损失函数,比如两点间直线距离公式,余弦相似度公式等等可以计算预测结果和实际结果之间的差距。
划重点:损失函数就是现实和理想的差距(很残酷)
3. 支持向量机
*判断依据的区别也导致了损失函数的不同(但依旧是猜)
直观的说,缝隙(上图的分类间隔)越大越好
4. 多分类
如果有多种花怎么办?
一趟植物课上,老师请来了牡丹鉴别专家、荷花鉴别专家、梅花鉴别专家。老师拿出了一盘花给各个专家鉴定,牡丹角色这是牡丹的概率是0.013、荷花专家角色这是荷花的概率是0.265、梅花专家角色这是梅花的概率是0.722。
老师综合了各位专家的意见后,告诉同学们,这是一盘梅花。
小明:这老师是不是傻,一朵花是啥都不知道,还要请三个专家
老师:你给我滚出去
实际计算过程就是通过用 2.2 和 2.3 等方法训练的二分类器,分别输出对应的分类值(比如三种花的分类器分别输出-1,2,3),那怎么把这些分类值转化成概率呢?这就要用到归一化指数化函数 Softmax(如果是二分类就用 Sigmoid函数),这里就不拿公式来说,可以直观的看看书中这个表格就懂了:
5. 非监督学习第 2.2 能从预测值和实际值的差别判断”是否猜对了”,是因为生物老师告诉了学渣,哪些样本是山鸾尾花,哪些变色鸾尾花。但如果老师连样本实际的类别也不告诉学渣(非监督式学习),学渣不知道样本分别是什么花。
那该怎么办呢?
机器学习的入门课程总是在讲鸾尾花,也是够烦的。
这里我们换个场景:
假如你是某直播老板,要找一堆小主播,这时候你有一堆应聘者,然而你只有她们的胸围和臀围数据。一堆8份简历摆在你面前,你是不知道哪些更加能干( capable啊 ! ) 的,更能吸引粉丝。你也没空全部面试,那应该怎么挑选呢?
这时候你把她们的胸围和臀围都标准在一张二维坐标图上:
这是你随手一划,把她们分成两组,可以说“聚成两类了”。
用某种计算方式(比如平均值)找到这个聚类的中心。点离聚类中心越近,代表越相似。
求出每个聚类中的点到蓝色聚类中心点和黄色聚类中心的距离
如果一个点离黄色聚类中心更近却被你随手划到了蓝色分组(上图用红色边框标出的小方块),那么就把它划入黄色分组。
这时因为分组范围和分组内包含哪些小姐姐都发生了变化。这时候你需要以 步骤3 的方法重新计算聚类的中心
重复步骤 4 (算点中心距离)-> 重复步骤 5 (调整黄色小姐姐们和蓝色小姐姐们)-> 重复步骤 3 (算中心),一直循环这个过程直到蓝色和黄色聚类下所包含的小姐姐不再发生变化。那么就停止这一循环。
至此,小姐姐们已经被分为两大类。你可以得出两类小姐姐:
计算机在没有监督的情况下,成功把小姐姐们分成两类,接下来就可以在把两种主播各投放2个到平台看看谁更能干。效果更好的,以后就以那个聚类的样本特征扩充更多能干的主播。
小明:有什么了不起的,我一眼就能看出黄色小姐姐更能干
老师:你给我滚出去
上面聚类小姐姐的算法就叫做 K 邻近算法,K 为要聚类的数量(这需要人工指定),上述例子 K=2.那么如果分成三类就是 K=3,训练过程可以看下图,有个直观的了解:
三、这是什么物品(图像识别)1. 特征提取人类感官特征
花瓣颜色、花瓣长度、有没有翅膀(区分猫和小鸟)、有没有嘴巴和眼睛(飞机和小鸟)
感官的特征通过量化得到颜色(RGB值)、边缘(圆角、直角、三角)、纹理(波浪、直线、网格)数值特征
人工设计特征
深度学习特征
通过卷积提取图像特征
划重点:卷积的作用就是提取图像有用信息,好比微信把你发出的图片压缩了,大小变小了,但是你依旧能分辨出图像的主要内容。
1维卷积 1*5+2*4+3*3=22、1*4+2*3+3*2=16、1*3+2*2+3*1=10
2维卷积 1*2+3*0+2*4+4*2=28…
通过卷积就可以得到图像的特征信息,比如边缘
垂直边缘检测
水平边缘检测
方向梯度直方图
2. 深度学习和传统模式分类的区别既然有传统模式分类,为什么还要神经网络呢?
区别就在于传统的模式分类需要人为设置特征,比如花瓣长度、颜色等等。而深度学习省略掉人工设计特征的步骤,交由卷积操作去自动提取,分类器的训练也同时融入到神经网络当中,实现了端对端的学习
划重点:端对端学习(End to End)就是从输入直接得出输出,没有中间商,自己赚差价。
3. 深(多)层神经网络存在的问题一般来说,神经网络层数增多,会提高准确率。但是,网络层数加深导致:
过拟合学渣把高考预测试题的答案都背一遍而不理解,考试的时候,如果试题是考生背过的,那么考生就能答对;如果没背过那么考生就不会回答了。我们就可以说,学渣『过拟合了预测试题。
与之对应的是:欠拟合渣得不能再渣的人,连预测试题都背不下来,即使考试试题和预测试题一模一样,他也只能答对30%。那么就可以说这种人~~欠揍~~欠拟合。
有兴趣的还可以了解一下梯度弥散和梯度爆炸下面是网上很火很励志的一个公式,权重在多层网络中相乘,比如每一层的权重都是0.01,传递100层 就是 0.01 的100 次方,变得非常小,在梯度下降 Gradient Descent 的学习过程中,学习将变得非常慢。(好比从一个碗顶部放下一个小球,在底部徘徊的速度会越来越慢)
非凸优化学习过程可能在局部最小值(极小值)就停止了,因为梯度(斜率)为零。在局部最低停止而不是全局最低停止,学习到的模型就不够准确了。
看图感受一下
你说的底不是底,你说的顶是什么顶
解决的办法
均匀初始化权重值(Uniform Initialization)、批归一化(Batch Normalization)、跳远链接(Shortcut)涉及到比较多数学逻辑,这里就不展开说明了。
4. 应用人脸识别
自动驾驶把汽车顶部拍摄到的图片切分层一个个小方块,每个小方块检测物体是车还是行人还是狗,是红灯还是绿灯,识别各种交通标识等等。再配合雷达等判断物体距离。
四、这是什么歌(语音识别)1. 特征提取人类感官特征音量、音调、音色
通过采样、量化、编码。实现声波数字化(声波转电信号)
人工设计特征梅尔频率在低频部分分辨率高,高频部分分辨率低(这与人耳的听觉感受是相似的,即在一定频率范围内人对低频声音比较敏感而对高频声音不敏感)。
关系为:
在每一个频率区间对频谱求均值,它代表了每个频率范围内声音能量的大小。一共有26个频率范围,从而得到26维的特征。倒谱操作后,得到 13 维的梅尔频率倒谱系数(Mel-FrequencyCepstralCoefficients,MFCCs)
深度学习特征通过 3.1 所介绍的 1维卷积进行特征提取
2. 应用音乐风格分类
输入:音频文件特征:声音特征输出:音乐种类
语音转文字
输入:音频文件特征:声音特征输出:声学模型(比如26个英文字母)
再把声学模型送入另外的学习器
输入:声学模型特征:语义和词汇输出:通顺的语句(可以查看第6点,如何让计算机输出通顺的语句)
听歌识曲通过窗口扫描(把音乐分割成一小段一小段的),然后通过4.1说的方法提取这一段的特征,就得到一个特征向量。对数据库的歌和用户录音的歌做同样的操作得到特征向量,然后两两之间计算相似度(两个向量的距离可以用余弦公式算夹角大小或者两点间距离公式来算)
五、视频里的人在做什么(视频理解,动作识别)1. 介绍视频,本质是由一帧帧图片连续组成的,因为人视觉的暂留效应(Persistence of vision,人眼在观察景物时,光信号传入大脑神经,并不立即消失,让人产生画面连续的印象),看上去是连续的,也就是视频。识别视频里面有什么物体,可以用上文说过的图像识别和分类方法去实时分析单帧图像,比如:
但是视频相对于图像有一个更重要的属性:动作(行为)。
怎么从一个连续的视频分析动作呢?
举个例子,像上图那只二哈,腿部的像素点相对于黄色的方框(框和狗相对静止)在左右”移动”,这里的”移动”我们引入一个概念——光流(一个像素点从一个位置移动到另一个位置),通过像素点移动形成的光流作为神经网络的训练特征(X),『奔跑作为训练目标值(Y),经过多次的迭代训练,机器就可以拟合得出一个 Y = f(X) 用于判断视频中的物体(Object)是否在奔跑。
2. 光流假设,1)相邻两帧中物体运动很小2)相邻两帧中物体颜色基本不变
至于神经网络是怎么跟踪某个像素点的,这里不展开说明。
第 t 时刻的点指向第 t+1 时刻该点的位置,就是该点的光流,是一个二维的向量。
整个画面的光流就是这样:
整个视频的光流(轨迹)是这样的
不同的虚线代表图像上某个点移动的轨迹
假设视频宽width、高 height、一共有 m 帧,那么该视频可以用 width * height * m * 2 的张量(就是立体的矩阵)来表示,把向量喂到神经网络即可进行分类训练。
进一步优化,可以把光流简化为8个方向上的,把视频某一帧的所有光流累加到这八个方向上得出某一帧的光流直方图,进一步得出 8 维的特征向量。
六、一段文字在表达什么(自然语言处理)1. 特征提取
这里有4个句子,首先进行分词:
去掉停用词(副词、介词、标点符合等等,一般在文本处理上都有一个停用词表)
编码词表
句子向量化
这样就得到一个句子19 维 的 特征向量,再把这19维的特征向量用普通卷积网络或者 LSTM 循环神经网络作为 X 读入(喂它吃东西),文本的分类(比如积极、消极)作为训练标签值 Y,迭代训练得到的模型可以用于情感分析或文本分类等任务。
2. 进阶词向量化厉害-牛逼、计算机-电脑是同义词。光从上面的步骤,我们可能认为厉害和牛逼是两个完全不一样的词语,但其实他们是近似的意思,怎么才能 AI 学习知道这点呢?需要从多个维度去进一步给词语更丰富的内涵,比如:
举例来说,男性用1表示,女性用0表示,不带性别倾向就是0.5。多个维度扩展之后,就得到“男人”这个词的特征向量(1,0, 0.5,0,1)
逆向文档频率一个词在一类文章出现的多,而在另外分类的文章出现的少,越能说明这个次能代表这篇文章的分类。比如游泳在体育类的文章中出现的多(2次),而在工具类的文章出现的少(0次),相比其他词语(1次)更能代表体育类的文章。
假设句子中有 N 个词, 某个词出现次数为 T,一共有 X 个句子,该词语在 W 个句子出现,则逆向文档频率 TF-IDF 为 T/N * log(X/W)
3. 应用
七、让计算机画画(生成对抗网络)从前有个人,以卖临摹名家的画来赚钱。他开始临摹一副名画:
第一次他画成这样子了:
鉴赏家一眼就看出来是假的,他不得不回去画第二幅画、第三幅画…
经过了10万次”画画-鉴别”的过程,这个临摹者画出来的画,鉴赏家居然认为这是真的原作,以高价买入了这副画。
这种生成(画画)- 鉴别(鉴伪)的模式正是生成对抗网络(GAN)的核心。
通过生成器,把随机像素点有序排列形成具有意义的画面,再通过鉴别器得出生成的画面的分类、和真实画面之间的差距,并告诉生成器要往什么方向去优化。多轮的训练之后,生成器就学会了画『真画了。
计算机是怎么把随机像素点变成有意义的画面的呢?我们通过一个简化的例子来看看。
直线上一些均匀分布的点,经过 y=2x+1变换后变成了非均匀分布。一张随机排布的像素点画面,经过某个f(x) 变换后就会变成具有某种意义的画面,而生成器就是不停地去近似f(x), 就像 2.2 感知器拟合一条直线那样。
下图为计算机生成手写数字的过程
划重点:函数可以变换数据分布(库克说:可以把直的变成弯的)
八AlphaGo是怎么下棋的?(强化学习)1. 粗略认知监督/无监督训练:尽可能让每一次任务正确强化学习:多次任务是否达成最终目标
每一次任务都准确,不就是能达成最终目标吗?我们来看一个例子:
一家批发商店的老板爱丽丝要求她的经理比尔增加销售额,比尔指导他的销售员多卖一些收音机,其中一个销售员查尔斯弄到了一个可以获利的大单,但是之后公司因为供应紧缺无法交付这些收音机。
应该责怪谁呢?
从爱丽丝的角度来看,查尔斯的行为让公司蒙羞了(最终任务没完成)。
但是从比尔的角度,查尔斯成功地完成了他的销售任务,而比尔也增加了销量(子任务达成)。——《心智社会》第7.7章
2. AlphaGo下围棋,最古老的办法是决策树,从左上角的位置开始到右下角的位置遍历,每一个空的位置就是一个分支,然后预测每种棋局赢的概率,找出最大概率的走法玩。这就是落子预测器。
但是由于围棋19X19的超大棋盘,空间复杂度高达10的360次方,要穷尽所有的走法几乎是不可能的,如大海捞针。
要降低复杂度,关键是要降低搜索的广度和深度。
我们栽培一颗小盆栽的时候,如果不对枝叶进行修剪,那么养分就会浪费在没长好的枝条上。需要及时对枯萎或者异常的枝条进行修剪以保证养分往正常(或者说我们希望它生长的方向)枝条上输送。
同样的道理,有限的计算机算力如果浪费在穷尽所有围棋走法上,将导致棋局推演非常慢,而且耗费大量的时间也难以找到最优的方案。
是否可以通过 “修剪” 落子选择器这颗庞大的决策树,加快较优落子方案的选择呢?怎么判断哪些是好的”枝条”,哪些是坏的”枝条”呢?这就需要棋局价值评估器(哪个棋盘的赢的概率更大),把没有价值的棋局先去掉不再往下遍历,这就同时减少了搜索的广度和深度。
其中,落子预测器有个名称,叫做政策网络(policy network)价值评估器有个名称,叫做价值网络(value network)政策网络(policy network)利用蒙特卡洛搜索树从当前棋局推演(随机下棋)到最终的棋局,最终胜则回报为正,反之回报为负。之后该算法会反向沿着该对弈过程的落子方案步步回溯,将路径上胜者所选择的落子方案分数提高,与此对应将败者的落子方案分数降低,所以之后遇到相同局面时选择胜者方案的概率就会增加。因此可以加速落子选择,称为快速走子网络。
通过 政策网络 + 价值网络 + 蒙特卡洛搜索树 实现最优落子方案的选择,同时两个机器人互相对弈,这样就不停地训练网络,学习落子方案。
3. 定义接下来说一下枯燥的定义
什么是强化学习?
当我们关注的不是某个判断是否准确,而是行动过程能否带来最大的收益时使用强化学习(reinforeement learning)。比如在下棋、股票交易或商业决策等场景中。
强化学习的目标是要获得一个策略(poliey)去指导行动。比如在围棋博弈中,这个策略可以根据盘面形势指导每一步应该在哪里落子;在股票交易中,这个策略会告诉我们在什么时候买入、什么时候卖出。
一个强化学习模型一般包含如下几个部分:
一组可以动态变化的状态(sute)
对于围棋棋盘上黑白子的分布位置对于股票交易来说,就是股票的价格
一组可以选取的动作(metion)
对于围棋来说,就是可以落子的位置;对于股票交易来说,就是每个时间点,买入或者卖出的股票以及数量。
一个可以和决策主体(agent)进行交互的环境(environment)这个环境会决定每个动作后状态如何变化。
棋手(主体)的落子会影响棋局(环境),环境给主体奖励(赢)或惩罚(输)操盘手(主体)的买入或卖出会影响股票价格(环境,供求关系决定价格),环境给主体奖励(赚钱)或惩罚(亏钱)
关键词:AlphaGo;人工智能;围棋;未来展望
中图分类号:TP18 文献标识码:A 文章编号:1671-2064(2017)07-0193-02
1 围棋与人工智能
围棋作为中国传统四大艺术之一,拥有着几千年的悠久历史。围棋棋盘由19条横线和19条竖线组成,共有19*19=361个交叉点,围棋子分为黑白两种颜色,对弈双方各执一色,轮流将一枚棋子下在纵横交叉点上,终局时,棋子围上交叉点数目最多的一方获胜。围棋棋盘上每一个纵横交叉点都有三种可能性:落黑子、落白子、留空,所以围棋拥有高达3^361种局面;围棋的每个回合有250种可能,一盘棋可长达150回合,所以围棋的计算复杂度为250^150,约为10^170,然而全宇宙可观测的原子数量只有10^80,这足以体现围棋博弈的复杂性和多变性。
人工智能(Artificial Intelligence,AI)主要研究人类思维、行动中那些尚未算法化的功能行为,使机器像人的大脑一样思考、行动。长期以来,围棋作为一种智力博弈游戏,以其变化莫测的博弈局面,高度体现了人类的智慧,为人工智能研究提供了一个很好的测试平台,围棋人工智能也是人工智能领域的一个重要挑战。
传统的计算机下棋程序的基本原理,是通过有限步数的搜索树,即采用数学和逻辑推理方法,把每一种可能的路径都走一遍,从中选举出最优路径,使得棋局胜算最大。这种下棋思路是充分发挥计算机运算速度快、运算量大等优势的“暴力搜索法”,是人类在对弈规定的时间限制内无法做到的。但是由于围棋局面数量太大,这样的运算量对于计算机来讲也是相当之大,目前的计算机硬件无法在对弈规定的时间内,使用计算机占绝对优势的“暴力搜索法”完成围棋所有局面的择优,所以这样的下棋思路不适用于围棋对弈。
搜索量巨大的问题一直困扰着围棋人工智能,使其发展停滞不前,直到2006年, 蒙特卡罗树搜索的应用出现,才使得围棋人工智能进入了崭新的阶段,现代围棋人工智能的主要算法是基于蒙特卡洛树的优化搜索。
2 围棋人工智能基本原理
目前围棋人工智能最杰出的代表,是由谷歌旗下人工智能公司DeepMind创造的AlphaGo围棋人工智能系统。它在与人类顶级围棋棋手的对弈中充分发挥了其搜索和计算的优势,几乎在围棋界立于不败之地。
AlphaGo系统的基本原理是将深度强化学习方法与蒙特卡洛树搜索结合,使用有监督学习策略网络和价值网络,极大减少了搜索空间,即在搜索过程中的计算量,提高了对棋局估计的准确度。
2.1 深度强化学习方法
深度学习源于人工神经网络的研究,人类大量的视觉听觉信号的感知处理都是下意识的,是基于大脑皮层神经网络的学习方法,通过模拟大脑皮层推断分析数据的复杂层状网络结构,使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象,其过程类似于人们识别物体标注图片。现如今,应用最广泛的深度学习模型包括:卷积神经网络、深度置信网络、堆栈自编码网络和递归神经网络等。
强化学习源于动物学习、参数扰动自适应控制等理论,通过模拟生物对环境以试错的方式进行交互达到对环境的最优适应的方式,通过不断地反复试验,将变化无常的动态情况与对应动作相匹配。强化学习系统设置状态、动作、状态转移概率和奖赏四个部分,在当前状态下根据策略选择动作,执行该过程并以当前转移概率转移到下一状态,同时接收环境反馈回来的奖赏,最终通过调整策略来最大化累积奖赏。
深度学习具有较强的感知能力,但缺乏一定的决策能力;强化学习具有决策能力,同样对感知问题无能为力。深度强化学习方法是将具有感知能力的深度学习和具有决策能力的强化学习结合起来,优势互补,用深度学习进行感知,从环境中获取目标观测信息,提供当前环境下的状态信息;然后用强化学习进行决策,将当前状态映射到相应动作,基于初期汇报评判动作价值。
深度强化学习为复杂系统的感知决策问题提供了一种全新的解决思路。
2.2 蒙特卡洛树搜索
蒙特卡洛树搜索是将蒙特卡洛方法与树搜索相结合形成的一种搜索方法。所谓蒙特卡洛方法是一种以概率统计理论为指导的强化学习方法,它通常解决某些随机事件出现的概率问题,或者是某随机变量的期望值等数字特征问题。通过与环境的交互,从所采集的样本中学习,获得关于决策过程的状态、动作和奖赏的大量数据,最后计算出累积奖赏的平均值。
蒙特卡洛树搜索算法是一种用于解决完美信息博弈(perfect information games,没有任何信息被隐藏的游戏)的方法,主要包含选择(Selection)、扩展(Expansion)、模拟(Simulation)和反向传播(Backpropagation)四个步骤。
2.3 策略网络与价值网络
AlphaGo系统拥有基于蒙特卡洛树搜索方法的策略网络(Policy Network)和价值网络(Value Network)两个不同的神经网络大脑,充分借鉴人类棋手的下棋模式,用策略网络来模拟人类的“棋感”,用价值网络来模拟人类对棋盘盘面的综合评估。
AlphaGo系统主要采用有监督学习策略网络,通过观察棋盘布局,进行棋路搜索,得到下一步合法落子行动的概率分布,从中找到最优的一步落子位置,做落子选择。DeepMind团队使用棋圣堂围棋服务器上3000万个专业棋手对弈棋谱的落子数据,来预测棋手的落子情况。期间,系统进行上百万次的对弈尝试,进行强化学习,将每一个棋局进行到底,不断积累“经验”,学会赢面最大的棋路走法,最终达到顶级围棋棋手的落子分析能力。而AlphaGo的价值网络使用百万次对弈中产生的棋谱,根据最终的胜负结果来进行价值网络训练,预测每一次落子选择后赢棋的可能性,通过整体局面的判断来帮助策略网络完成落子选择。
3 围棋人工智能意义
经过比赛测试证明,AlphaGo系统的围棋对弈能力已经达到世界顶级棋手水平。一直以来,围棋因为复杂的落子选择和巨大的搜索空间使得围棋人工智能在人工智能领域成为一个具有代表性的难度挑战。目前的硬件水平面对如此巨大的搜索空间显得束手无策,AlphaGo系统基于有监督学习的策略网络和价值网络大大减少搜索空间,在训练中开创性地使用深度强化学习,然后结合蒙特卡洛树搜索方法,使得系统自学习能力大大提高,并且AlphaGo系统在与人类顶级棋手对弈中取得的连胜卓越成绩,槠湓谌斯ぶ悄芰煊虻於了坚实的里程碑地位。
虽然围棋人工智能取得了如此优秀的成绩,但是也仅仅是它在既定规则内的计算处理能力远远超过了人类的现有水平,并且还有有待提高和完善的地方。在人类的其他能力中,例如情感、思维、沟通等等领域,目前的人工智能水平是远远达不到的。但是随着科技的进步和人类在人工智能领域的研究深入,人工智能与人类的差距会逐渐减小,像围棋人机大战人工智能连胜人类这样的例子也可能在其他领域发生,这就意味着人工智能的发展前景十分可观。
4 结语
人类和人工智能共同探索围棋世界的大幕即将拉开,让人类棋手结合人工智能,迈进全新人机共同学习交流的领域,进行一次新的围棋革命,探索围棋真理更高的境界。
参考文献
关键词:发展趋势;研究应用;人工智能
DOI:10.16640/ki.37-1222/t.2017.07.119
0 简介
人工智能((Artificial Intelligence)),它是一门新的技术科学,主要用于模拟、延伸以及扩展人类的智能的方法、理论、技术以及应用系统。人工智能主要就是对人类的思维、意识的信息过程的合理化的模拟。人工智能它并不是人的智能,但是,它却能像人那样的思考,而且也可能会超过人类的智能。总的说来,人工智能研究的一个主要目标是使机器能够胜任一些复杂工作。
1 人工智能的运用现状
目前,在很多方面人工智能有着运用,其中一个主要表现就是全球人工智能公司数量在急剧的增加,专家系统在目前来看是在人工智能各领域中最为活跃,且最为有成效的一个领域。它是一类基于知识的系统,并可以解决那些一般仅有专家才能够解决的复杂问题。我们这样定义专家系统:专家系统是一种具有特定领域内大量知识与经验的程序系统,它是基于程序系统依靠人工智能技术,来模拟人类专家求解复杂问题的过程,大多情况下,专家系统的水平甚至可以超过人类专家。专家系统的基本结构图如下图所示:
2 人工智能的影响
人工智能对经济的影响:人工智能的的确确会影响到社会、生活、文化的方方面面,特别是对于实体经济将来会有巨大的影响。以后,每个行业几乎都会产生颠覆性的变化。在人工智能的研究上,中国并不落后,将来的中国一定可以从中获得非常大的收益。一成功的专家系统可以为它的用户带来很明显的经济效益。用比较经济的办法执行任务而不需要具有经验的专家,从而极大地减少开支。专家系统深入各行各业,带来巨大的宏观效益,促进了IT网络工业的发展。
人工智能对文化的影响:在人工智能原理的基础上,人们通常情况下会应用人工智能的概念来描述他们的日常状态和求解问题的过程。人工智能可以扩大人们知识交流的概念集合,描述我们所见所闻的方法以及描述我们信念的新方法;人工智能技术为人类的文化生活提供了巨大的便利。如图像处理技术必将会对图形艺术和社会教育部门等产生深远影响。比如现有的智力游戏机将会发展成具有更高智能的一种文化娱乐手段。随着技术的进步,这种影响会越来越明显地表现出来。当然,还有一些影响可能是我们目前难以预测的。但可以肯定,人工智能将对人类的物质文明以及精神文明产生更大的影响。
人工智能对社会的的影响:一方面,AI为人类文化生活提供了一种新的模式。现有的游戏将逐步发展为更高智能的交互式文化娱乐手段,今天,游戏中的人工智能应用已经深入到各大游戏制造商的开发中。另一方面,人工智能能够代替人类进行各种脑力劳动,所以,从某种意义上来讲,这将会使一部分人失去发展的机遇,甚至可能失业。由于人工智能在科技以及工程中的应用,一部分人可能会失去介入信息处理活动的机会,甚至不得已而改变自己的工作方式;人工智能还可能会威胁到人类的精神。一般人们觉得人类与机器的区别就是人类具有感知精神,但如果有一天,这些相信只有人才具有感知精神的人也开始相信机器能够思维和创作,那他们就会感到失望,甚至于感到威胁。他们会担心:有朝一日,智能机器的人工智能可能会超过人类的自然智能,从而使人类沦为智能机器的奴隶。
3 人工智能的发展趋势
有机构预测,2017年人工智能投资将同比增长300%以上,在技术上将会更迅猛发展,工控自动化商城的智能语音、智能图像、自然语言以及深度学习等技术越来越成熟,就像空气和水一样将会逐步地渗透到我们的日常生活。行业专家关于2017年人工智能的发展方向主要有以下几点:(1)机器学习目前正在被应用在更复杂的任务以及更多领域中,且被更多的人作为挖掘数据的方式。无监督的学习会取得更多进展,但也存在很大的挑战,故在这一方面离人类的能力还是差得很远的。计算机在理解和生成自然语言方面,预计最先会在聊天机器人和其他对话系统上落地。 (2)深度学习、其他的机器学习、人工智能技术的混用,是成熟技术的典型标志。将深度学习应用到医疗领域中(医疗图像、临床数据、基因组数据等),各种类型数据上的研究以及成果将会大大的增加。 (3)聊天机器人和自动驾驶汽车可能会取得较大的进展,预计更多人类基准将会被打破,特别是那些基于视觉以及适合卷积神经网络的挑战。而非视觉特征创建和时间感知方法将会变得更加频繁、更加富有成果。
4 结论
人工智能是人类长久以来的梦想,同时也是一门富有挑战性的学科。尽管人工智能带来很多问题,但当人类坚持把人工智能只用于造福人类,人工智能推动人类社会文明进步将毋庸置疑。就像所有的学科一样,人工智能也会经历各种挫折,但只要我们有信心、 有毅力,人工智能终将成为现实,融入到我们生活的方方面面,为我们的生活带来更大的改变。
参考文献:
[1]朱祝武.人工智能发展综述[J].中国西部科技,2011,10(17):8-10.
[2]肖斌.对人工智能发展新方向的思考[J].信息技术,2009,37(12):166-169.