(单篇优先)网络出版时间:2017-09-18 20:25:40

深度卷积神经网络的发展及其在计算机视觉领域的应用

作为类脑计算领域的一个重要研究成果,深度卷积神经网络已经广泛应用到计算机视觉、自然语言处理、信息检索、语音识别、语义理解等多个领域,在工业界和学术界掀起了神经网络研究的浪潮,促进了人工智能的发展。卷积神经网络直接以原始数据作为输入,从大量训练数据中自动学习特征的表示。卷积神经网络具有局部连接、权值共享和池化操作等特性,可以有效降低网络复杂度,减少训练参数的数目,使模型对平移、扭曲、缩放具有一定程度的不变性。目前,深度卷积神经网络主要是通过增加网络的层数,使用更大规模的训练数据集,以及改进现有神经网络的网络结构或训练学习算法等方法,来模拟人脑复杂的层次化认知规律,拉近与人脑视觉系统的差距,使机器获得“抽象概念”的能力。深度卷积神经网络在图像分类、目标检测、人脸识别、行人再识别等多个计算机视觉任务中都取得了巨大成功。本文首先回顾了卷积神经网络的发展历史,简单介绍了M-P神经元模型、Hubel-Wiesel模型、神经认知机、用于手写识别的Le Net,以及用于Image Net图像分类比赛的深度卷积神经网络。然后详细分析了深度卷积神经网络的工作原理,介绍了卷积层、采样层、全连接层的数学表示及各自发挥的作用。接着本文重点从以下三个方面重点介绍卷积神经网络的代表性成果,并通过实例展示各种技术方法在图像分类精度的提升效果。从增加网络层数方面,讨论并分析了Alex Net、ZF-Net、VGG、Goog Le Net和Res Net等经典卷积神经网络的结构;从增加数据集规模方面,介绍了人工增加标注样本的难点,以及使用数据扩增技术对神经网络性能提升的作用;从改进训练方法方面,介绍了包括L2正则化、Dropout、Dropconnect、Maxout等常用的正则化技术,Sigmoid函数、tanh函数以及Re LU函数、LRe LU函数、PRe LU函数等常用的神经元激活函数,softmax损失、hinge损失、contrastive损失、triplet损失等不同损失函数,以及batch normalization技术的基本思想。针对计算机视觉领域,本文重点介绍了卷积神经网络在图像分类、目标检测、人脸识别、行人再识别、图像语义分割、图片标题生成、图像超分辨率、人体动作识别以及图像检索等任务的最新研究进展。从人类视觉认知机制出发,分析了视觉信息分层处理和“大范围优先”视觉认知过程的相关理论成果和对当前计算模型的一些理论启示。最后提出了未来基于深度卷积神经网络的类脑智能研究待解决的问题与挑战。

国家重点基础研究发展计划(973计划) (2015CB351705); 国家自然科学基金重点项目(61332018); 国家自然科学基金青年科学基金项目(61703344); 中央高校基本科研业务费专项资金(3102017OQD021);

类脑智能; 神经网络; 深度学习; 计算机视觉; 视觉认知;

计算机学报

Chinese Journal of Computers

ISSN:0254-4164

中文核心期刊

3728302293K
在线咨询 用户反馈