首页 > 文章中心 > 卷积神经网络的定义

卷积神经网络的定义

前言:想要写出一篇令人眼前一亮的文章吗?我们特意为您整理了5篇卷积神经网络的定义范文,相信会为您的写作带来帮助,发现更多的写作思路和灵感。

卷积神经网络的定义

卷积神经网络的定义范文第1篇

过去10年,人们对机器学习的兴趣激增。几乎每天,你都可以在各种各样的计算机科学课程、行业会议、华尔街日报等等看到有关机器学习的讨论。在所有关于机器学习的讨论中,许多人把机器学习能做的事情和他们希望机器学习做的事情混为一谈。从根本上讲,机器学习是使用算法从原始数据中提取信息,并在某种类型的模型中表示这些信息。我们使用这个模型来推断还没有建模的其他数据。

神经网络是机器学习的一种模型,它们至少有50年历史了。神经网络的基本单元是节点(node),基本上是受哺乳动物大脑中的生物神经元启发。神经元之间的连接也以生物的大脑为模型,这些连接随着时间的推移而发展的方式是为“训练”。

在20世纪80年代中期和90年代初期,许多重要的架构进步都是在神经网络进行的。然而,为了得到好的结果需要大量时间和数据,这阻碍了神经网络的采用,因而人们的兴趣也减少了。在21世纪初,计算能力呈指数级增长,计算技术出现了“寒武纪大爆发”。在这个10年的爆炸式的计算增长中,深度学习成为这个领域的重要的竞争者,赢得了许多重要的机器学习竞赛。直到2017年,这种兴趣也还没有冷却下来;今天,我们看到一说机器学习,就不得不提深度学习。

作者本人也注册了Udacity的“Deep Learning”课程,这门课很好地介绍了深度学习的动机,以及从TensorFlow的复杂和/或大规模的数据集中学习的智能系统的设计。在课程项目中,我使用并开发了用于图像识别的卷积神经网络,用于自然语言处理的嵌入式神经网络,以及使用循环神经网络/长短期记忆的字符级文本生成。

本文中,作者总结了10个强大的深度学习方法,这是AI工程师可以应用于他们的机器学习问题的。首先,下面这张图直观地说明了人工智能、机器学习和深度学习三者之间的关系。

人工智能的领域很广泛,深度学习是机器学习领域的一个子集,机器学习又是人工智能的一个子领域。将深度学习网络与“经典的”前馈式多层网络区分开来的因素如下:

比以前的网络有更多的神经元更复杂的连接层的方法用于训练网络的计算机能力的“寒武纪大爆炸”自动特征提取

这里说的“更多的神经元”时,是指神经元的数量在逐年增加,以表达更复杂的模型。层(layers)也从多层网络中的每一层都完全连接,到在卷积神经网络中层之间连接局部的神经元,再到在循环神经网络中与同一神经元的循环连接(recurrent connections)。

深度学习可以被定义为具有大量参数和层的神经网络,包括以下四种基本网络结构:

无监督预训练网络卷积神经网络循环神经网络递归神经网络

在本文中,主要介绍后三种架构。基本上,卷积神经网络(CNN)是一个标准的神经网络,通过共享的权重在空间中扩展。CNN设计用于通过内部的卷积来识别图像,它可以看到图像中待识别的物体的边缘。循环神经网络(RNN)被设计用于识别序列,例如语音信号或文本。它的内部有循环,这意味着网络上有短的记忆。递归神经网络更像是一个层级网络,在这个网络中,输入必须以一种树的方式进行分层处理。下面的10种方法可以应用于所有这些架构。

1.反向传播

反向传播(Back-prop)是一种计算函数偏导数(或梯度)的方法,具有函数构成的形式(就像神经网络中)。当使用基于梯度的方法(梯度下降只是方法之一)解决优化问题时,你需要在每次迭代中计算函数梯度。

对于神经网络,目标函数具有组合的形式。如何计算梯度呢?有两种常用的方法:(i)解析微分(Analytic differentiation)。你已经知道函数的形式,只需要用链式法则(基本微积分)来计算导数。(ii)利用有限差分进行近似微分。这种方法在计算上很昂贵,因为函数值的数量是O(N),N指代参数的数量。不过,有限差分通常用于在调试时验证back-prop实现。

2.随机梯度下降法

一种直观理解梯度下降的方法是想象一条河流从山顶流下的路径。梯度下降的目标正是河流努力达到的目标——即,到达最底端(山脚)。

现在,如果山的地形是这样的,在到达最终目的地之前,河流不会完全停下来(这是山脚的最低点,那么这就是我们想要的理想情况。)在机器学习中,相当从初始点(山顶)开始,我们找到了解决方案的全局最小(或最佳)解。然而,可能因为地形的性质迫使河流的路径出现几个坑,这可能迫使河流陷入困境。在机器学习术语中,这些坑被称为局部极小值,这是不可取的。有很多方法可以解决这个问题。

因此,梯度下降很容易被困在局部极小值,这取决于地形的性质(用ML的术语来说是函数的性质)。但是,当你有一种特殊的地形时(形状像一个碗,用ML的术语来说,叫做凸函数),算法总是保证能找到最优解。凸函数对ML的优化来说总是好事,取决于函数的初始值,你可能会以不同的路径结束。同样地,取决于河流的速度(即,梯度下降算法的学习速率或步长),你可能以不同的方式到达最终目的地。这两个标准都会影响到你是否陷入坑里(局部极小值)。

3.学习率衰减

根据随机梯度下降的优化过程调整学习率(learning rate)可以提高性能并减少训练时间。有时这被称为学习率退火(learning rate annealing)或自适应学习率(adaptive learning rates)。训练过程中最简单,也是最常用的学习率适应是随着时间的推移而降低学习度。在训练过程开始时使用较大学习率具有进行大的改变的好处,然后降低学习率,使得后续对权重的训练更新更小。这具有早期快速学习好权重,后面进行微调的效果。

两种常用且易于使用的学习率衰减方法如下:

逐步降低学习率。在特定的时间点较大地降低学习率。

4 . Dropout

具有大量参数的深度神经网络是非常强大的机器学习系统。然而,过拟合在这样的网络中是一个严重的问题。大型网络的使用也很缓慢,这使得在测试时将许多不同的大型神经网络的预测结合起来变得困难。Dropout是解决这个问题的一种方法。

Dropout的关键想法是在训练过程中随机地从神经网络中把一些units(以及它们的连接)从神经网络中删除。这样可以防止单元过度适应。在训练过程中,从一个指数级的不同的“稀疏”网络中删除一些样本。在测试时,通过简单地使用一个具有较小权重的单一网络,可以很容易地估计所有这些“变瘦”了的网络的平均预测效果。这显著减少了过拟合,相比其他正则化方法有了很大改进。研究表明,在视觉、语音识别、文档分类和计算生物学等监督学习任务中,神经网络的表现有所提高,在许多基准数据集上获得了state-of-the-art的结果。

5. Max Pooling

最大池化(Max pooling)是一个基于样本的离散化过程。目标是对输入表示(图像,隐藏层输出矩阵等)进行下采样,降低其维度,并允许对包含在分区域中的特征进行假设。

这在一定程度上是为了通过提供一种抽象的表示形式来帮助过拟合。同时,它通过减少学习的参数数量,并为内部表示提供基本的平移不变性(translation invariance),从而减少计算成本。最大池化是通过将一个最大过滤器应用于通常不重叠的初始表示的子区域来完成的。

6.批量归一化

当然,包括深度网络在内的神经网络需要仔细调整权重初始化和学习参数。而批量标准化有助于实现这一点。

权重问题:无论权重的初始化如何,是随机的也好是经验性的选择也罢,都距离学习到的权重很遥远。考虑一个小批量(mini batch),在最初时,在所需的特征激活方面将会有许多异常值。

深度神经网络本身是有缺陷的,初始层中一个微小的扰动,就会导致后面层巨大的变化。在反向传播过程中,这些现象会导致对梯度的分散,这意味着在学习权重以产生所需输出之前,梯度必须补偿异常值,而这将导致需要额外的时间才能收敛。

批量归一化将梯度从分散规范化到正常值,并在小批量范围内向共同目标(通过归一化)流动。

学习率问题:一般来说,学习率保持较低,只有一小部分的梯度校正权重,原因是异常激活的梯度不应影响学习的激活。通过批量归一化,减少异常激活,因此可以使用更高的学习率来加速学习过程。

7.长短时记忆

LSTM网络在以下三个方面与RNN的神经元不同:

能够决定何时让输入进入神经元;能够决定何时记住上一个时间步中计算的内容;能够决定何时让输出传递到下一个时间步长。

LSTM的优点在于它根据当前的输入本身来决定所有这些。所以,你看下面的图表:

当前时间标记处的输入信号x(t)决定所有上述3点。输入门从点1接收决策,遗忘门从点2接收决策,输出门在点3接收决策,单独的输入能够完成所有这三个决定。这受到我们的大脑如何工作的启发,并且可以基于输入来处理突然的上下文/场景切换。

8. Skip-gram

词嵌入模型的目标是为每个词汇项学习一个高维密集表示,其中嵌入向量之间的相似性显示了相应词之间的语义或句法相似性。Skip-gram是学习单词嵌入算法的模型。

Skip-gram模型(以及许多其他的词语嵌入模型)的主要思想是:如果两个词汇项(vocabulary term)共享的上下文相似,那么这两个词汇项就相似。

换句话说,假设你有一个句子,比如“猫是哺乳动物”。如果你用“狗”去替换“猫”,这个句子仍然是一个有意义的句子。因此在这个例子中,“狗”和“猫”可以共享相同的上下文(即“是哺乳动物”)。

基于上述假设,你可以考虑一个上下文窗口(context window,一个包含k个连续项的窗口),然后你跳过其中一个单词,试着去学习一个能够得到除跳过项外所有项的神经网络,并预测跳过的项是什么。如果两个词在一个大语料库中反复共享相似的语境,则这些词的嵌入向量将具有相近的向量。

9.连续词袋(Continuous Bag Of Words)

在自然语言处理问题中,我们希望学习将文档中的每个单词表示为一个数字向量,使得出现在相似的上下文中的单词具有彼此接近的向量。在连续的单词模型中,我们的目标是能够使用围绕特定单词的上下文并预测特定单词。

我们通过在一个庞大的语料库中抽取大量的句子来做到这一点,每当我们看到一个单词时,我们就会提取它周围的单词。然后,我们将上下文单词输入到一个神经网络,并预测位于这个上下文中心的单词。

当我们有成千上万的这样的上下文单词和中心词以后,我们就有了一个神经网络数据集的实例。训练神经网络,最后编码的隐藏层输出表示特定单词的嵌入。而当我们对大量的句子进行训练时也能发现,类似语境中的单词得到的是相似的向量。

10.迁移学习

卷积神经网络的定义范文第2篇

关键词 人脸识别;Gabor小波;小波网络;神经网络;特征抽取

中图分类号TP39 文献标识码A 文章编号 1674-6708(2012)58-0183-02

0 引言

随着信息技术的发展,人脸识别因在公安、身份验证、安全验证系统、医学、考勤系统等各方面的巨大应用前景而成为当前人工智能和模式识别领域的研究热点。人脸识别是指利用摄像头捕捉人的面部图片,利用计算机分析比较人脸的生物特征来进行身份识别。虽然人类能够轻易识别出人脸和表情,但是人脸机器识别却是一个难度极大的课题[1]。

基于Gabor小波弹性图匹配算法作为一种有效的人脸识别方法,虽然方法简单,但是实现复杂、计算量大、耗时多,本文提出了一种改进的基于局部特征Gabor小波的BP神经网络方法,此方法避免了弹性如匹配算法的高计算量,神经网络由于学习和记忆能力,提高了算法容错性。本文采用Gabor小波特征空间作为神经网络输入空间,然后使用神经网络作为分类器。

1 基于局部特征的Gabor小波

1.1 Gabor滤波器数组

二维图像的离散Gabor 变换的定义见文献[4],对特征点图像模板进行离散Gabor 变换的Gabor核函数如下:

式中参数描述三角函数的波长,参数描述小波的方向性。依David S. Bolme 的取值对人脸图像的处理间隔4 个像素,即分别取{4 , ,8, , 16};对的取值从0到π的区间分别取{0 ,π/ 8 ,2π/ 8 ,3π/ 8 ,4π/ 8 ,5π/ 8 ,6π/ 8 ,7π/ 8}共8个方向,π到2π区间的方向性由于小波的奇偶对称性而省去。参数描述三角函数的相角,取∈{ 0 , π/2} ;参数描述高斯半径,取=;参数描述高斯的方向角,选取=1 ;这样通过选取一系列的5个不同的和8个方向的,就可以得到40个二维的复数离散Gabor滤波器组。

1.2 Gabor小波特征值

GaborJet是根据特征点的位置坐标(xn,yn),对特征点作Gabor变换得到的。具体方法是对每一个特征点,以(xn,yn)为中心提取该特征点周围的正方形图像区域的图像灰度信息,然后通过该图像区域与特定波长、方向的2D Gabor滤波器卷积,从而得到该特征点的频率信息等。

2 改进的BP神经网络

1988年,Rumelhart、Hinion和Williams提出了用于前向神经网络学习训练的误差反向传播算法(Error Back Propagation,EBP,简称BP),成功地解决了多层网络中隐含层神经连接权值的学习问题[2]。

BP神经网络训练过程即学习过程:神经网络在外界输入样本的刺激下不断改变网络的连接权值,以使网络的输出不断地接近期望的输出。学习的本质是对各连接权值的动态调整,令输出结果达到预期目标。学习规则是在学习过程中网络中各神经元的连接权变化所依据的一定的调整规则。图1为改进BP神经网络的模型图。

原始BP算法的主要缺点[3]为:收敛速度慢和可能陷入局部极值。本文对BP算法进行了改进,改进方法如下:

1)Sigmoid函数的改进:在实验过程中将产生较大的误差时,S型函数的标准形式用来生成输出的分类,并可能会出现不收敛。因此为了解决这个问题的办法是采取 改进的S型函数如式2.1所示。k的值越大越容易收敛,但收敛速度较慢;k较小可以使得S型函数较稳定,其收敛速度快,但容易产生不稳定。经多次不同值的实验,最终选定 k=3. 5。

2)学习速率自调整模型:学习速率自调整的BP算法缩短了学习时间。神经网络学习过程,即连接下层节点和上层节点之间的权重拒阵Wij的设定和误差修正过程。BP网络自学习方式:需要设定期望值和输入样本。自学习模型为:

h 是学习因子;是输出节点i的计算误差;Oj是输出节点j的计算输出;a是动量因子。

3 人脸识别实验与结果分析

采用ORL人脸数据库,每个人脸有10幅不同细节的图片。识别率检测数据库A:选择30个人作为测试对象。取每个人的前4幅图片共120幅图片作为人脸数据库。然后使用另外的180幅图片进行测试。

由于定位特征点位置会有一些误差,所以在试验阶段人脸数据库中的人脸特征点位置手工标注,这样可以从初始阶段减少误差。人工标注图像的各个特征点的实例如图2所示:

对每个特征点特区Gabor特征,存入数组作为BP神经网络输入。然后使用样本进行训练得到神经网络分类器。当训练完成后,采用测试图片进行识别统计识别效率和识别时间。

其中一组训练和识别样本实验结果如表1所示。

其中前5列是该人的训练样本,后5列是该人的识别样本。由于本系统神经网络输出数目与数据库中人物数一样,所以每个人有8个输出,每行表示测试图片与数据库中一个人相似度。训练时输出为,其中0.9表示输出目标,训练误差为0.01。输出为0.9附近就是识别目标。

采用不同的方法系统识别率不同,或者相同方法采用不同人脸图像库系统识别率也会不同。根据上面实验,表2统计了不同人脸识别算法的识别率。

分别在PC平台上进行测试,EBGM大约需要1s时间,而本算法只需要0.01s,大大提高了算法效率。

4 结论

基于EBGM与本文人脸识别算法比较,本文算法有效的解决了传统弹性图匹配算法计算复杂的问题,无需进行弹性图粗匹配和精确匹配,只需要训练,在识别时保留了Gabor小波生物特性基础上大大提高了传统算法实时性。在识别能力上,神经网络具有学习分类作用,比传统弹性图匹配具有更高的识别率。

参考文献

[1]焦峰,山世光,崔国勤,等.基于局部特征分析的人脸识别方法[J].计算机辅助设计与图形学学报,2003,15(1).

[2]M Riedmiiler and H Braum.A direct adaptive method for faster baek Propagation learning:The RPOP algorlthm. Proceedings of the IEEE International Coference on Neural Networks(ICNN).San Fraueisco, 1993:586-591.

[3]Phillips P J, Moon H, Rizvi S A, et al.The FERET Evaluation Methodology for Face recongition Algorithms. IEEE Transaction on Pattern Analysis and Machine Intelligence,2000, 22(10):1090-1104.

卷积神经网络的定义范文第3篇

关键词:视觉注视;移动端;数据集;行为推测

中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2017)01-0254-03

Abstract: With the development of computer vision application technology, the behavior prediction of eye gaze has been widely concerned by many scholars at home and abroad, and also has important research significance in the field of biological information recognition. In the era of smart phone tablet popularity to improve human-computer interaction and accurate prediction of the mobile side of the user gaze behavior becomes particularly important. Based on the existing research on visual technology, this paper proposes a scheme to solve the gaze behavior of mobile users by using large data combined with machine learning and convolution neural network knowledge, and analyzes the importance of large-scale data sets in visual application.

Key words: visual gaze; mobile end; data set; behavior conjecture

1 概述

伴S着计算机软硬件性能和互联网技术的迅猛发展,大规模的并行计算技术突飞猛进,不断地发展使各种现有技术变得越来越成熟,同时机器学习和计算机视觉领域也都得到了飞速发展。视觉技术的发展变得越来越重要,并且可以应用到实际生活中的很多方面。人类大量的视觉信息现在可以利用计算机来辅助处理,并完成相关的一些工作。相对于生物信息识别技术这一计算机视觉领域的热点技术来说,也已广泛应用于日常生活中[1]。比如指纹识别器,人脸考勤器等平时在许多地方可以经常见到,还有居民家用的摄像头智能报警系统以及近期炒得火热的运用支付宝进行刷脸而完成的支付技术等,这些都是运用了生物信息识别技术。现实中的种种迹象已经表明运用生物信息识别的计算机技术已渐渐的渗透到人们的日常生活中并成为不可或缺的组成部分。时下发展较快也比较常见的生物特征有视网膜、指纹、人脸和人眼等。这些生物信息比如人脸具有个体差异性和自身稳定性特点,从用户的角度来看该特征具有便携和低侵入等一些优点。而人眼作为人脸中最显著的特征,又是人们获取外界信息最直接最方便的途径。都说眼是心灵的窗户,因为眼睛中蕴含着表情、意图等多种信息。因此,眼睛注视的行为预测受到了国内外众多学者的广泛关注,同时在生物信息识别领域中也具有重要的研究意义[2]。

2 注视预测问题

2.1 问题的背景

在心理、认知和用户交互研究中的注视跟踪最近已朝向移动解决方案发展,因为它们使得可以直接评估用户在自然环境中的视觉注意。 除了注意,注视还可以提供关于用户的动作和意图的信息:用户正在做什么以及接下来将做什么。然而,在自然状态下非结构化的任务中注视行为是相当复杂的,并且不能使用在受控的实验室环境中创建的模型来得到令人满意的解释。自然条件下和实验室环境有着很大的不同。为了演化在自然环境中对注视行为的推断,需要一种更加整体的方法,将从认知科学到机器学习的许多学科结合在一起[3]。

从人机交互技术到医学诊断到心理学研究再到计算机视觉,眼睛注视跟踪在许多领域都有应用。注视是外部可观察的人类视觉注意的指标,许多人试图记录它。对于眼睛视线方面的研究可以追溯到十八世纪后期。而现如今已经存在各种解决方案(其中许多是商业化的),但是所有的解决方案都具有以下一个或多个方面的问题:高成本(例如,Tobii X2-60),定制或侵入性硬件(例如,Eye Tribe,Tobii EyeX)。然而在现实中的自然条件下,这些因素对实际的应用会造成一些障碍影响,使得眼睛注视跟踪不能成为任何具有合理的相机(例如,智能手机或网络摄像头)的人应该可以使用的普及技术。如何才能使得这种技术普及并且得到应用,提出了一种解决方案。

2.2问题的提出

研究中首先要解决的就是用户的约束问题,也就是自然条件下使用过程中所受到的各种限制问题。到目前为止,基于注视数据推断用户动作的研究受到许多的限制,特别是在自然环境中。限制因素可能包括可用的商业解决方案的昂贵性,其专有性和封闭性以及缺乏实时交互能力等方面。目前的注视跟踪系统,只是尽量在移动设置中设置各种条件进行补救。商业化定制化的解决方案都有其独自的闭合性质,因此阻碍了注视跟踪算法的发展,并且使得不同方法之间的客观比较变得不可能[4]。此外,注视是一种复杂的现象,涉及认知过程的相互作用。这些过程在设置计算上的建模是非常困难的,尤其是涉及一些未知因素,使得构建实验设置成为一个很大的挑战。此外,来自跟踪实验的数据因为其商业化的原因很少共享,即使共享数据很大部分也是有其独立的实验条件。这些方面的问题都阻碍了跨学科方法在分析和利用注视数据和实验的相关研究与发展。

2.3 解决问题的研究方向

对基于注视的推断的个体贡献通常保持孤立,不能形成更大的整体以促进对注视动作行为的研究。随着这方面的技术发展和应用,最近出现了一些开源的解决方案。虽然在不同的应用和用户界面中使用注视已经相当有限,但是移动注视跟踪的新颖应用开始出现并得到了很快的发展。然而使用移动注视跟踪来推断用户动作的问题是高度多学科的,需要深入理解各个研究领域,包括人眼的功能,数学建模,计算机视觉,机器学习,信息技术,认知过程,用户交互以及心理学。任何一个研究员或甚至任何研究小组都不可能拥有所有研究领域的专家,因此需要相互的协作共同推进技术的发展[5]。

目前的研究主要是从以下几个方面进行:

1)研究移动注视跟踪的认知方面,例如增强对任务中的注视行为的理解或识别不同任务的特征和阶段;

2)开发用于从注视数据推断用户动作的计算方法,诸如应用机器学习用于行为推断,优选地实时地;

3)增强用于改善移动注视跟踪方法和性能的技术软件/硬件解决方案,并使得设备更容易访问;

4)发现注视数据在自然环境和虚拟和增强现实应用中的潜在用途,以及定义任务,其中注视可以是用户动作的有用的预测器。

3 解决方案

首先选择移动端进行研究,因为目前比较普遍的移动设备比如智能手机、平板电脑都有自己可靠的工作系统,且不需要外部附件。移动设备相对于其他平台具有以下优势:

1)使用的广泛性。据估计,到2019年,世界上超过三分之一的人口拥有智能手机,远远超过台式机/笔记本电脑用户;

2)软硬件技术升级的采用率较高。大部分的移动设备具有允许使用拥有计算复杂数据方法的实时的最新软硬件;

3)移动设备上相机的大量使用已经导致相机技术的快速开发和部署;

4)相机相对于屏幕的固定位置减少了未知参数的数量,潜在地允许开发高精度的校准跟踪应用。

3.1 注视类型分析

注视估计方法可以分为基于模型或基于外观[6]。基于模型的方法使用眼睛的几何模型,并且可以被细分为基于角膜反射和基于形状的方法。另一方面,基于形状的方法从观察到的眼睛形状观察注视方向。这些方法倾向于具有低的图像质量和可变的照明条件。基于外观的方法直接使用眼睛作为输入,并可能在低分辨率图像上工作。相比基于模型的方法,基于外观的方法被认为需要更大量的用户特定的训练数据。通过使用深度学习和大规模数据不必依赖于视觉,以实现准确的无校准注视估计。这种方案提出建立一个基于外观的数据模型,而不使用任何手工设计的功能,例如头部姿势或眼球中心位置。

3.2 技术方案

深度学习的最近成功在计算机视觉的各种领域中是显而易见的,但是它对改善眼睛跟踪性能的影响还是相当有限。因为深度学习是需要大量的数据作为支持,而视线追踪这方面的数据集还比较少,普通的研究所得到的稻菁比较有限,最大的数据集通常只是具有50个受试者左右,由于缺乏大规模数据的可用性,因此发展比较缓慢。因而提出了使用深度学习进行研究的一套方案,就是构造大规模的数据集。利用网络资源构造一个大规模的基于移动的眼动跟踪数据集,它包含来自各种背景的大量的受试者,在可变照明条件和不受限制的头部运动下记录[7]。运用现有的智能算法得到一个可以进行卷积神经网络学习端到端的注视预测的后台决策网络。不依赖任何预先存在的系统,不需要头部姿态估计或其他手动设计的特征用于预测。使用只有双眼和脸部的特征训练网络,在这个领域的性能优于现有的眼睛跟踪方法。虽然现在的决策网络在精度方面实现了很先进的性能,但是数据输入的大小和参数的数量使得难以在移动设备上实时使用。 为了解决这个问题,需要培养学习得到一个更小更快的网络,在移动设备上实现实时性能,使得精度损失进一步降低。

3.3 大规模数据集

为了达到这一方案的预测效果,首先要进行的是数据集的建立。网络上相关的研究中有许多公开的注视数据集[8]。总结对比这些相关的数据集,分析出有些早期的数据集不包含显著性的头部姿势变化或具有粗略的注视点采样密度。需要对这些数据进行筛选,使得到的数据具有随机分布特点。虽然一些现代数据集遵循类似的方法,但它们的规模(尤其是参与者的数量)相当有限。大多数现有的眼动追踪数据集已经由邀请实验室参与者的研究人员收集,这一过程导致数据缺乏变化,并且成本高且效率不高。因此需要大量的进行数据收集和筛选分析。大规模数据可以通过卷积神经网络有效地识别人脸(他们的眼睛)上的细粒度差异,从而做出准确的预测。

收集眼动跟踪数据应该注意的方面:

1)可扩展性。数据应该是自然条件下的使得用户具有灵活性;

2)可靠性。运用现有的智能移动设备真实的应用图像而非设计处理过的图像;

3)变异性。尽量使数据具有较大的变异性,使得模型更加稳健,适应各种环境下的操作。

4 结束语

文章介绍了一种针对移动设备的用户注视行为推测解决方案。首先建立一个大规模眼动跟踪数据集,收集大量的注视数据。大型数据集的重要性,以及具有大量各种数据以能够训练用于眼睛跟踪的鲁棒模型。然后,训练得到一个深层卷积神经网络,用于预测注视。通过仔细的评估,利用深度学习可以鲁棒地预测注视,达到一个较好的水平。此外,虽然眼睛跟踪已经存在了几个世纪,相信这种新方案的策略可以作为下一代眼动跟踪解决方案的关键基准。希望能通过这方面的研究,使人机交互得到更好的发展。

参考文献:

[1] 崔耀 视控人机交互系统技术研究与实现[D].西安,西安电子科技大学,2013.

[2] 迟健男, 王志良, 张闯.视线追踪[M].北京: 机械工业出版社, 2011.

[3] Alireza Fathi, Yin Li, and James M Rehg 2012 Learning to recognize daily actions using gaze In Computer VisionCECCV 2012. Springer, 314-327.

[4] Makeroni Labs 2016 Eye of Horus. https://hackaday.io/project/

6638-eye-of-horus-open-source-eye-tracking-assistance (2016) Accessed: 2016-02-26.

[5] Francisco J Parada, Dean Wyatte, Chen Yu, Brandi Emerick, and Thomas Busey,2015.Expert Eyes: Open-source, high-definition eyetracking Behavior research methods ,2015.

[6] 杨彩霞.基于近红外光源的非接触式视线跟踪技术研究 [D].山东:山东大学,2012.

卷积神经网络的定义范文第4篇

关键词:人工智能 心血管 超声

大数据是现代医学模式的重要特征。在这种医疗模式下,要求医疗人员在确保患者安全和健康的同时追求效率的最大化[1]。对于高分辨率的医学影像成像,集中体现在医务人员快速、准确、有效地解释影像数据(包括肉眼可见和不可见),挖掘利于诊断和治疗的有用信息。在此背景下,人工智能(artificial intelligence,AI)应运而生,它为促进图像采集、测量、报告和随后的临床路径以及影像和临床数据的整合提供了有效手段[2]。心血管影像的精确性成为AI临床应用中的主要领域之一,本文对此作一综述。

1 人工智能及其在医学上的应用

AI是一个广义的术语,指的是机器或计算程序执行具有人类智能特征的任务的能力,如模式识别和解决问题的能力等。AI可以通过弥补人类智能,使现有医疗诊断和预后价值最大化,同时使医师负担最小化,从而显着改善健康诊疗过程和结果。AI在临床实践中的应用预示着医学领域一个更为剧烈变化时代的到来,在影像学方面尤其如此。一项通过分析科学网数据库的研究[3]发现,目前AI在医学的研究领域主要集中在大数据分析、脑卒中康复、心脏手术和医疗诊断和预后预测等方面。其中,用于医学诊断、预后预测和分类的神经网络和支持向量机是主要热点,占所有文献的26%;而未来最引人关注的研究主题是基于AI的微创手术。然而,关于AI数据管理、模型可靠性、模型临床效用验证等问题尚未进行广泛研究。

2 人工智能的机器学习法

大数据是一个经常用来描述大量收集数据的术语,如来自大型生物信息库的基因组数据、电子健康记录档案和大型研究队列数据以及影像学扫描数据等。AI系统通过识别和提取一组观测数据(数据集)的模式来自主获取知识的过程称为机器学习(machine learning,ML)。ML是人工智能的一个组成部分,描述为计算机从经验中学习的过程,并在没有事先知识的情况下执行预定的任务[4]。机器学习可以进一步分为监督学习、半监督学习和无监督学习,这取决于用于学习的样本是否完全标记、部分标记或未标记。ML的典型例子是人工神经网络,后者基于人类大脑的神经元及其连接,神经元之间的相互依赖关系反映出不同的权重,每个神经元接受多个输入,所有的输入一起决定了神经元的激活。通过样本训练找到这些合适权重的过程就是学习。学习过程的复杂性和所需的样本量随着神经元数量的增加而增加。由于计算能力和样本大小的限制,机器学习应用程序的成功依赖于从原始样本中手工提取特征来减少神经元的数量。为了解决这一问题,人们提出了深度学习的方法,即自动学习代表性的样本。深度学习是指一种特别强大的ML方法,它利用卷积神经网络模拟人类的认知,常用于影像模式识别和分类。

模型训练是所有ML类型的共同过程,它是利用模型分析所提供的数据中的各种特性来学习如何生成输出标签的过程[5]。如在超声心动图中,一个模型可以分析各种特征,如左心室壁厚度和左心室射血分数,以确定患者是否具有特定的条件。然而,在分析中包含不相关的特征可能会导致模型过度拟合,从而在呈现新数据集时降低其准确性。这强调了拥有一个能够代表总体的训练数据集的重要性。数据集的质量对于最终ML模型的质量至关重要。尽管ML算法可以使用小数据集或大数据集进行训练,但大数据集可以最大限度地提高训练算法的内部和外部有效性,降低过度拟合的风险。正确模型的选择通常取决于操作员的专业知识、数据集的性质和最终人工智能系统的目的。

3 人工智能在心血管超声的应用

心血管成像领域,包括超声心动图、心脏计算机断层扫描、心脏磁共振成像和核成像,具有复杂的成像技术和高容量的成像数据,处于精准心脏病学革命的前沿。然而,在基于AI的临床转化方法中,心血管成像一直落后于肿瘤学等其他领域。人工智能在超声心动图中的应用包括自动心室定量和射血分数计算、应变测量和瓣膜形态及功能评估以及ML在心脏疾病自动诊断中的应用。

3.1 心室定量和EF自动化。

自动心室量化和EF计算的算法旨在提供准确、快速和可重复的心尖视图分类、解剖标志检测、心室壁分割和心内膜跟踪。有研究[6]比较了AI软件自动测量(AutoEF)和手工追踪双平面Simpson法测量左室EF的准确性,并与心脏MRI进行了比较。结果表明AutoEF与手动双平面Simpson法测得的EF相关性较好,且与MRI相关性良好,但AutoEF低估了左室舒张末期容积(EDV)和收缩期末期容积(ESV)。此外,在不同切面,测量的准确性存在差异,以胸骨旁长轴切面的准确性最高,达96%,而在心尖切面时整体精度降低(84%)。腔室定量和左室EF测量的中位数绝对偏差在15%~17%,其中ESV的绝对偏差最小;左房容积和左室EDV被高估。

3.2 心肌运动和应变测量。

Kusunose等[7]研究发现与传统二维超声心动图相比,利用深度卷积神经网络可更好的检测区域壁运动异常并区分冠状动脉梗死区域。Cikes等[8]利用复杂超声心动图数据(整个心动周期的左室容积和变形数据,而不是单个数据点)和临床参数的ML算法识别心衰并对心脏再同步化治疗的反应进行评估,证实通过整合临床参数和全心周期成像数据,无监督的ML可以为表型异质性心力衰竭队列提供一个有临床意义的分类,并可能有助于优化特定治疗的反应率。另有研究证实[9-10],ML算法有助于区分缩窄性心包炎、限制性心肌病以及肥厚性心肌的重塑。Zhang等[11]采用AI软件和手工勾画对左室心肌的纵向应变进行了比较研究。发现AI自动测量的心肌全局纵向应变与手动应变变化最小(绝对值为1.4%~1.6%)。

3.3 心脏瓣膜评估。

有学者[12]采用AI软件对二尖瓣几何形状进行测量,测量参数包括二尖瓣环面积、瓣环高度和宽度、瓣叶连合间距、前后叶长度等。发现相对于常规超声心动图,所有评估的成像参数均获得了更好的观察者间一致性,而且所花费的时间明显较少。Prihadi等[13]研究证实,经食管超声心动图AI软件能够精确地对主动脉瓣结构以及冠状动脉开口进行测量和定位,且与多层螺旋CT的测量结果具有良好的相关性。

4 展望

在海量医学信息和影像数字化日益积累的现代医学时代,AI和ML为疾病诊断和风险预测等问题提供了新的解决方案。通过AI对超声心动图数据进行预测、建模和精确分析,可以帮助超声医师快速、准确地处理大量心脏超声影像学数据,既有利于应对当前医疗信息数量的急剧增长,又有利于提高处理数据信息的能力。未来,针对AI的研究应关注超声图像数据特征定义及其提取方法的标准化,以确保可推广性和可再现性,促进AI向更加个性化的医疗模式转变。此外,AI系统与远程医疗等软件的集成,将使智能心脏超声诊断系统渗透到资源消耗负担最繁重的地区,提高经济效益。

参考文献

[1]Oikonomou EK,Siddique M,Antoniades C.Artificial intelligence in medical imaging:A radiomic guide to precision phenotyping of cardiovascular disease[J].Cardiovasc Res,2020,Feb 24;cvaa021.

[2]Dey D,Slomka PJ,Leeson P,et al.Artificial Intelligence in Cardiovascular Imaging:JACC State-of-the-Art Review[J].J Am Coll Cardiol,2019,73(11):1317-1335.

[3]Tran BX,Latkin CA,Vu GT,et al.The Current Research Landscape of the Application of Artificial Intelligence in Managing Cerebrovascular and Heart Diseases:A Bibliometric and Content Analysis[J].Int J Environ Res Public Health,2019,16(15):2699.

[4]Gandhi S,Mosleh W,Shen J,et al.Automation,machine learning,and artificial intelligence in echocardiography:A brave new world[J].Echocardiography,2018,35(9):1402-1418.

[5]Alsharqi M,Woodward WJ,Mumith JA,et al.Artificial intelligence and echocardiography[J].Echo Res Pract,2018,5(4):R115-R125.

[6]Xu B,KocyigitD,Grimm R,et al.Applications of artificial intelligence in multimodality cardiovascular imaging:A state-of-theart review[J].Prog Cardiovasc Dis,2020,19;S0033-0620(20)30060-8.

[7]Kusunose K,Abe T,Haga A,et al.A Deep Learning Approach for Assessment of Regional Wall Motion Abnormality From Echocardiographic Images[J].JACC Cardiovasc Imaging,2020,13(2 Pt 1):374-381.

[8]Cikes M,Sanchez-Martinez S,Claggett B,et al.Machine learningbased phenogrouping in heart failure to identify responders to cardiac resynchronization therapy[J].Eur J Heart Fail,2019,21(1):74-85.

[9]Narula S,Shameer K,Salem Omar AM,et al.Machine-Learning Algorithms to Automate Morphological and Functional Assessments in 2D Echocardiography[J].J Am Coll Cardiol,2016,68(21):2287-2295.

[10]Sengupta PP,Huang YM,Bansal M,et al.Cognitive machine-learning algorithm for cardiac imaging:a pilot study for differentiating constrictive pericarditis from restrictive cardiomyopathy[J].Circ Cardiovasc Imaging 2016,9(6):e004330.

[11]Zhang J,Gajjala S,Agrawal P,et al.Fully automated echocardiogram interpretation in clinical practice[J].Circulation,2018,138(16):1623-1635.

卷积神经网络的定义范文第5篇

关键词:语义标记;三维人脸;网格标记;随机森林;正方形切平面描述符

DOIDOI:10.11907/rjdk.171139

中图分类号:TP317.4

文献标识码:A 文章编号:1672-7800(2017)006-0189-05

0 引言

在计算机视觉与图像领域,对于二维图像人脸的研究(包括人脸识别、人脸检测、人脸特征点标记等)非常多,并且取得了很大进展。特别是近几年,随着深度学习算法的应用,对于二维人脸的研究有了极大突破[1]。然而,相对于二维人脸,人们对三维人脸研究较少。三维人脸的研究是以人脸的三维数据为基础,结合计算机视觉和计算机图形学,充分利用三维人脸的深度信息和其它几何信息,解决和克服现有二维人脸研究中面临的光照、姿态、表情等问题[3]。三维人脸模型标记与分割是将三维人脸网格模型上的顶点进行分类,将人脸划分为几个区域,例如眉毛、眼睛、鼻子、嘴等。对这些区域的标记与分割对三维人脸重建、特征点定位和表情动画等方面的研究都起着重要作用。三维人脸的研究是模式识别和图形学领域活跃且极具潜力的研究方向之一,在影视、游戏动画、人脸识别、虚拟现实、人机交互等方面都有着广泛应用[2-3]。

目前,许多对三维人脸方面的研究,包括三维人脸重建、识别与跟踪、姿态估计及特征点标记等,都是基于深度图的方法[4-7]。Fanelli等[6-8]提出一种方法,将从深度数据估算人脸姿态表达为一个回归问题(Regression Problem),然后利用随机森林算法解决该问题,完成一个简单深度特征映射到三维人脸特征点坐标、人脸旋转角度等实值参数的学习。通过训练数据集建立随机森林,该数据集包括通过渲染随机生成姿态的三维形变模型得到的5万张640*480深度图像。在实验部分,对Fanelli等提出的从深度图中提取特征的方法与本文的特征提取方法进行了对比。与文献[6]中的方法相比,Papazov[9]提出了一个更为复杂的三角形表面patch特征,该特征是从深度图重建成的三维点云中计算获得的,主要包括两部分:线下测试和线上测试。将三角形表面patch(TSP)描述符利用快速最近邻算法(FLANN)从训练数据中寻找最相似的表面patches。

在计算机图形学领域,网格理解在建立和处理三维模型中起着重要作用。为了有效地理解一个网格,网格标记是关键步骤,它用于鉴定网格上的每个三角形属于哪个部分,这在网格编辑、建模和变形方面都有着重要应用。Shapira等[10]利用形状直径函数作为分割三维模型的一个信号,通过对该信号的计算,定义一个上下文感知的距离测量,并且发现众多目标之间的部分相似性;随后,Sidi等[11]提出一个半监督的联合分割方法,利用一个预定义的特征集实现对目标的预先分割,然后将预先做好的分割嵌入到一个普通空间,通过使用扩散映射获得最终的对网格集的联合分割。网格标记的一个关键问题是建立强大的特征,从而提高各类网格模型标记结果的准确性,增加泛化能力。为了解决该问题,Kalogerakis等[12]提出采用一种基于条件随机场算法的方法来标记网格。通过对已标记的网格进行训练,成功地学习了不同类型的分割任务;Xie等[13]提出一种三维图形快速分割与标记的方法,用一系列特征描述法和极端学习器来训练一个网格标记分类的神经网络;Guo等[14]提出用深度卷积神经网络(CNNs)从一个大的联合几何特征中学习网格表示方式。这个大的联合几何特征首先被提取出来表示每个网格三角形,利用卷积神经网络的卷积特征,将这些特征描述符重新组织成二维特征矩阵,作为卷积神经网络的输入进行训练与学习。

本文提出一种新的几何特征描述符(正方形切平面描述符)来表示人脸模型上的顶点特征,利用随机森林算法对三维人脸模型顶点进行训练,实现对人脸模型上顶点的分类(属于鼻子或是眼睛区域等),从而实现三维人脸模型的区域标记。这种新描述符并非从深度图提取的简单矩形区域特征,而是直接从三维人脸模型计算获得,在人脸的姿势、尺寸、分辨率的改变上具有一定鲁棒性。因此,训练过程是在三维人脸模型上执行的,这种数据相对于真实的深度图数据更容易获取(例如在文献[6]中使用的训练数据)。

1 特征描述符与三维人脸区域分割

1.1 正方形切平面描述符

从一个三维人脸模型M的所有顶点上随机选取一个种子点P,根据三维人脸模型的几何结构,计算该种子点的法向量,此时根据一点和法向量即可确定一个切平面。确定正方形的边长L和正方形的方向。正方形的方向(正方形局部坐标系)是根据全局坐标系下建立的正方形,通过法向量转换而成。建立正方形局部坐标系,以便于计算三维人脸上的点到正方形的投影距离,减少程序运行时间,从而可以确定一个正方形切平面块S。在这种情况下,根据正方形切平面块S,可以计算出一个简单且具有鲁棒性的几何描述符V。将正方形边长分成K等份,正方形则细分为K2个小正方形,如图1(a)所示。模型M上的所有点向正方形切平面块上投影,如果投影点在正方形内,此点则肯定在K2个小正方形中的某一个正方形内,称该点属于该小正方形或者称小正方形包含该点。每个小正方形的描述符是其包含所有点投影距离的平均值。考虑到人脸模型的几何特征,有些人脸部分存在于正方形上面,有些部分则存在于正方形下面,因此每个点的投影距离有正负之分。整个正方形切平面块的描述符V是所有小正方形描述符的简单串联。在实验部分,本文将对边长L和划分的小正方形个数K2对分类的准确率进行对比研究。

使用每个小正方形包含所有点的平均投影距离作为描述符,使得该描述符对噪声、数据分解和分辨率上的变化具有鲁棒性,这在实验部分有所体现。许多三维几何特征已经在一些文章中被提出,包括Spin Images(SI)[15]、3D shape context (SC)[16]、 SHOT[17]和MeshHOG[18-19]。这些描述法都根据局部坐标系定义并且依赖于大量的平面法向量,使噪声数据对结果产生一定影响。和以上描述法相比,本文描述符取平均投影距离,并且正方形取的足够大,使描述法更加简单、有效且具有鲁棒性。除三维几何特征外,许多文章也对三维模型投影生成的深度图进行了特征选取和处理。例如,Fanelli等[6-8]在深度图中选取patch,然后在patch中随机选取两个矩形框F1、F2,如图2所示。以像素点的深度值和几何法向量的X、Y、Z值作为随机森林的4个特征通道,F1和F2中所有像素点某个特征通道平均值的差值作为随机森林每棵树节点的二元测试。二元测试定义为:

本文在实验部分对上述特征选取方式与本文提出的正方形描述符在三维人脸区域标记上的结果进行了比较。

1.2 数据库与人脸区域分割

训练阶段的正方形切平面描述符均取自于高分辨率的人脸网格模型,这些训练模型由Basel Face Model (BFM)[20]生成。BFM是一个公开、可获得的基于PCA的三维形变模型,由200个人脸对象的高分辨率三维扫描创建而成。通过从一个正态分布取样的PCA系数,BFM能被用来生成任意数量的随机网格人脸。此外,在所有生成的人脸网格模型上,对应顶点的索引都是一样的。例如,在所有训练模型上,在鼻尖的顶点有相同的索引数字,这将带来诸多便利。对于训练模型,只需在任意一个BFM人脸模型上进行一次人脸区域的手动标记,即可知道每个训练模型要分割的区域上各点的索引,如每个模型鼻子区域的所有顶点索引都是一样的。

对训练模型进行手动分割标记(只需分割标记一次),将一个三维人脸模型分割为10个区域:左眉毛、右眉毛、左眼睛、右眼睛、左脸颊、右脸颊、鼻子、上嘴唇、下嘴唇、下巴,剩下部分属于其它区域。如图3所示,对三维人脸模型进行区域分割,不同的分割区域用不同颜色进行标记,每个区域包含很多三维人脸模型顶点。由于很多三维人脸模型额头部分包含的顶点相对较少,特征信息也相对较少,所以将额头区域划分至其它区域。人脸模型的每个区域包含的所有顶点属于同一类,根据上述BFM数据库特点可知,数据库中任何一个人脸模型每个区域包含的所有顶点索引都是一致的。

2 随机森林算法分类标记人脸区域

2.1 随机森林算法

分类回归树[21]是一个强大的工具,能够映射复杂的输入空间到离散或者分段连续的输出空间。一棵树通过分裂原始问题到更简单、可解决的预测以实现高度非线性映射。树上的每一个节点包含一个测试,测试的结果指导数据样本将分到左子树或是右子树。在训练期间,这些测试被选择用来将训练数据分组,这些分组对应着实现很好预测的简单模型。这些模型是由训练时到达叶子节点的被标记的数据计算而来,并且存储于叶子节点。Breiman[22]指出虽然标准的决策树单独使用会产生过拟合,但许多随机被训练的树有很强的泛化能力。随机被训练树的随机性包括两方面,一是用来训练每棵树的训练样本是随机选取的,二是每棵树上的二元测试是从使每个节点最优的测试集中随机选取的。这些树的总和称为随机森林。本文将三维人脸模型区域的标记与分割描述为一个分类问题,并利用随机森林算法来有效地解决它。

2.2 训练

训练数据集是由BFM生成的50个三维人脸模型。从每个模型上随机取n=10 000个顶点样本,每个顶点对应一个正方形切平面块。本文实验中森林由100棵树建立而成,森林里每个树由随机选取的一系列块(patch){Pi=Vfi,θi}构建而成。Vfi是从每个样本提取的特征,即正方形切平面描述符,f是特征通道的个数,正方形划分为K2个小正方形,f=K2。实值θi是这个样本所属的类别,例如鼻子区域类别设为数字1,那么鼻子区域内的顶点样本所对应的θ=1。建立决策树时,在每个非叶子节点上随机生成一系列可能的二元测试,该二元测试定义为:

这里的Pi∈{L,R}是到达左子树或右子树节点上的样本集合,wi是到左子树或右子树节点的样本数目和到父节点样本数目的比例,例如:wi=|Pi||P|。

2.3 测试

通过BFM生成55个三维人脸模型,其中50个人脸模型作为训练数据,剩下5个人脸模型作为测试数据。测试数据依然取10 000个样本点,并且知道每个样本点属于哪一个区域,通过测试数据计算三维人脸模型网格点分类的准确率。为了测试提出方法的有效性,研究过程中从网上下载获取了其它三维人脸模型,对人脸模型上的所有网格点通过之前训练好的随机森林模型进行分类。因为其它人脸模型与BFM生成人脸模型的尺寸、坐标单位等不一致,所以本研究对这些测试模型进行了后期处理,对正方形的边长按照模型尺寸的比例M行选取。

3 实验

3.1 数据集与实验环境

本文三维人脸标记与分割所用的训练和测试三维人脸模型由BFM生成,50个模型作为训练数据,5个模型作为测试数据。每个模型包含53 490个顶点和106 466个三角形网格,每个训练模型选取10 000个顶点样本。用C++和OpenGL、OpenCV等库对三维人脸模型数据进行采样,得到每个样本的正方形切平面描述符。在Matlab平台下用随机森林算法对数据集进行训练和测试,并对实验结果进行可视化。

3.2 实验结果

利用已训练好的模型对测试数据集上三维人脸模型的所有顶点进行分类,计算顶点分类的准确率。准确率(Accuracy Rate)计算公式为:

准确率=预测正确的顶点个数(m)人脸模型上所有顶点个数(N)

根据文献[10]提出的类似描述符参数选取以及参数优化策略,经过多次实验,研究发现正方形边长L和正方形划分的小正方形数目K2两个参数的选取对顶点分类准确率有着一定影响。实验中选取参数L∈{60,80,100}、参数K2∈{9,16,25,36}进行对比,具体对比结果如表1、表2所示(其中表1中K2为16,表2中L为80mm)。

根据上面两个表格,可以明显得出,L=80mm,K2=25时顶点分类准确率最高。接下来对L=80mm,K2=25情况下的三维人脸模型区域进行标记,可视化结果如图4所示,上边是原始三维模型数据,下边是标记后的结果。(a)、(b)模型标记图是由BFM生成的三维人脸模型区域标记的结果,模型有53 490个顶点。为了验证本文方法的一般性和对分辨率具有不变性,(c)~(e)模型标记图是非BFM生成的其它三维人脸模型的标记结果,模型约有5 000个顶点。以上所有图都是对三维人脸模型所有顶点进行标记的结果。

文献[6]~[8]中提到的基于深度图的特征提取方法(见图1),同样利用随机森林算法进行了实验,并与本文的正方形特征描述符的实验结果进行了比较,如表3所示。将深度图投影到96*96大小,深度图patch所取边长c深度图大小的比例和正方形所取边长与模型大小的比例相等。

由表3可得,对三维人脸模型顶点级分类和区域标记问题,本文提出的特征描述符的标记结果优于深度图patch特征选取方法。此外,由于深度图的一些局限性,直接对三维模型处理要比对深度图处理更有优势。

3.3 结果讨论与分析

图4中5个模型顶点数目、三角形面数目和头部姿势都不一样,验证了本文所提方法对于姿势、模型尺寸和模型分辨率具有较好的鲁棒性。并且其对不同的眉毛、眼睛、脸颊区域也能进行很好的区分,将左右眉毛、左右眼睛和左右脸颊用同一颜色、不同符号进行显示。本文提出的描述符和直接对三维模型处理的方法,与在深度图上选取特征方法相比具有一定优势。由于手动分割人脸区域时,很难避免分割粗糙,区域交界处有的部分顶点没有包含进去,因此在区域交界处顶点的分类误差会相对略大,特别是嘴唇之间的部分。另外,三维人脸模型中额头和下巴的顶点和特征相对较少,所以相较于其它区域,这两个区域的顶点分类误差也会略大。

4 结语

本文提出一种基于正方形切平面描述符的三维人脸区域标记方法。将这种几何特征描述符作为选取样本的特征,通过随机森林算法,对三维人脸模型进行区域分类和标记。该方法可有效识别出三维人脸模型的眉毛、眼睛、鼻子、嘴巴和脸颊等区域,这对三维人脸特征点的定位及其它三维人脸方面的研究都具有重要意义。本文提出的方法对三维人脸模型头部姿态、模型尺寸、模型分辨率具有较好的鲁棒性。和基于深度图的方法相比,本文提出的方法具有更好的泛化能力,是一种行之有效的特征提取方法。

然而,手动分割人脸区域的做法在一定程度上略显粗糙,特征选取速度亦仍需优化。同时,本文仅对三维模型上所有顶点所属区域进行标记,没有将标记后的结果结合三维分割算法进行区域分割优化。如何对相关算法加以改进,将是下一步需要解决的问题。

参考文献:

[1]SUN Y, WANG X, TANG X. Deep convolutional network cascade for facial point detection[J]. Computer Vision & Pattern Recognition,2013,9(4):3476-3483.

[2]CAO C, WENG Y, LIN S, et al. 3D shape regression for real-time facial animation[J]. Acm Transactions on Graphics, 2013, 32(4):96-96.

[3]CAO C, HOU Q, ZHOU K. Displaced dynamic expression regression for real-time facial tracking and animation[J]. Acm Transactions on Graphics, 2014, 33(4):1-10.

[4]SEEMAN E, NICKEL K, STIEFELHAGEN R. Head pose estimation using stereo vision for human-robot interaction[C].ICAFGR, 2004 Sixth IEEE International Conference on Automatic Face and Gesture Recognition. IEEE, 2004: 626-631.

[5]BREITENSTEIN M D, KUETTEL D, WEISE T, et al. Real-time face pose estimation from single range images[C]. Proc.IEEE put.Vis.Pattern Recognit, 2008:1-8.

[6]FANELLI G, GALL J, GOOL L V. Real time head pose estimation with random regression forests[C]. IEEE Conference on Computer Vision & Pattern Recognition, 2011:617-624.

[7]FANELLI G, WEISE T, GALL J, et al. Real time head pose estimation from consumer depth cameras[C].Pattern Recognition Dagm Symposium, Frankfurt/main, Germany, 2011:101-110.

[8]FANELLI G, DANTONE M, GALL J, et al. Random forests for real time 3D face analysis[J]. International Journal of Computer Vision, 2013, 101(3):437-458.

[9]PAPAZOV C, MARKS T K, JONES M. Real-time 3D head pose and facial landmark estimation from depth images using triangular surface patch features[C].IEEE Conference on Computer Vision and Pattern Recognition. 2015:4722-4730.

[10]SHAPIRA L, SHALOM S, SHAMIR A, et al. Contextual part analogies in 3D objects[J]. International Journal of Computer Vision, 2010, 89(2):309-326.

[11]SIDI O, KAICK O V, KLEIMAN Y, et al. Unsupervised co-segmentation of a set of shapes via descriptor-space spectral clustering[C].SIGGRAPH Asia Conference. 2011.

[12]KALOGERAKIS E, HERTZMANN A, SINGH K. Learning 3D mesh segmentation and labeling[J]. Acm Transactions on Graphics, 2010, 29(4):157-166.

[13]XIE Z, XU K, LIU L, et al. 3D shape segmentation and labeling via extreme learning machine[J]. Computer Graphics Forum, 2014, 33(5):85-95.

[14]GUO K, ZOU D, CHEN X. 3D mesh labeling via deep convolutional neural networks[J]. Acm Transactions on Graphics, 2015, 35(1):1-12.

[15]JOHNSON A E, HEBERT M. Using spin images for efficient object recognition in cluttered 3d scenes[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 1999, 21(5):433-449.

[16]FROME A, HUBER D, KOLLURI R, et al. Recognizing objects in range data using regional point descriptors[J]. Lecture Notes in Computer Science, 2004.

[17]TOMBARI F, SALTI S, STEFANO L D. Unique signatures of histograms for local surface description[C].European Conference on Computer Vision Conference on Computer Vision. Springer-Verlag, 2010:356-369.

[18]ZAHARESCU A, BOYER E, VARANASI K, et al. Surface feature detection and description with applications to mesh matching[C]. IEEE Conference on Computer Vision & Pattern Recognition, 2009:373-380.

[19]ZAHARESCU A, BOYER E, HORAUD R. Keypoints and local descriptors of scalar functions on 2D manifolds[J]. International Journal of Computer Vision, 2012, 100(1):78-98.

[20]PAYSAN P, KNOTHE R, AMBERG B, et al. A 3D face model for pose and illumination invariant face recognition[C].IEEE International Conference on Advanced Video & Signal Based Surveillance. IEEE Computer Society, 2009:296-301.

[21]BREIMAN, LEO. Classification and regression trees[M].Classification and regression trees /. Chapman & Hall/CRC, 1984:17-23.

[22]MITCHELL. Machine learning[M]. McGraw-Hill, 2003.

相关期刊更多

数据采集与处理

北大期刊 审核时间1-3个月

中国科学技术协会

遥测遥控

统计源期刊 审核时间1-3个月

中国航天科技集团有限公司

北华大学学报·自然科学版

统计源期刊 审核时间1-3个月

吉林省教育厅