卷积神经元网络综述译文,原文共有94页,看论文的时候翻译出来,记录下。
原文地址: arxiv
作者:Isma Hadji and Richard P. Wildes, Department of Electrical Engineering and Computer Science, York University,Toronto, Ontario,Canada.
第一章
介绍
1.1 写作动机
在过去的几年里,计算机视觉方面的研究主要集中在卷积神经网络,卷积神经网络也常常被叫做ConvNets或者CNNs。近年来的研究已经达到了最先进的效果,尤其是在大范围的分类[64,88,139]和回归[36,97,159]问题上。这些实现方法的历史能够追溯到很多年之前[49,91],然而,相比之下,对于这些方法(系统)是如何达到这样出色的效果的理论研究(理解)却明显拖了后腿。事实上,现阶段很多在计算机视觉领域有显著提升的方法(原文为贡献,这里指的是有贡献的研究方法)都是将卷积神经网络当做黑盒子使用,这种黑盒子在面对为何能够达到这种效果的问题下,即使十分模糊,也依旧能够取得效果,然而从科学的角度出发的话,这个并不能让人满意。特别地,这里主要有两个相互补充的话题: (1)对于机器学习的层面上(比如:卷积核),具体机器学习到了什么?(2)对于网络结构设计的层面上(比如:神经网络的层数,卷积核或者卷积层的数量,池化的策略,非线性激活函数的选择等),为什么有些选择会优于别的选择?对于这些问题的答案不仅能够提高卷积神经网络的在理论层面上的认知,也能够提高实际的应用。
并且,目前对于卷积神经网络的实现需要大量的数据进行训练[84,88,91],而且已经确定好的决定的设计(???不太清楚具体指的什么决定)极大地影响效果[23,77]。更深层次的理论认知应该能够减少数据驱动设计的依赖。当实证研究调查了已实现网络的表现行为,到目前为止,他们的结果极大地限制于内部数据处理的可视化,无法更好去理解在不同卷积网络层所发生的变化[104,133,154]。
1.2 目标
就像上面所提到的问题,这篇文章将会详细地阐述使用多层卷积网络结构的最显著的方法。更重要的是,典型卷积网络结构上各种各样的部分将会通过对不同方法的研究进行讨论,而且是基于在生物学发现或者是声音理论基础上的决策设计。此外,对通过可视化和实证研究去理解卷积网络的不同尝试也会进行讨论。终极目标就是能够清楚阐述设计卷积网络结构的每一层处理的作用,能够提取出我们目前对于卷积网络的认识同时能够强调出重点问题。
1.3 论文概述
这篇文章的结构如下:当前的章节提出了仔细回顾对卷积网络认知的必要性。第二章开始将会描述各种各样的多层网络以及阐述在计算机视觉应用中最好的网络结构。第三章将会集中在典型卷家网络的每一个细节里以及讨论不同组成成分的设计,包括生物学角度和学术理论角度。最后,第四章将会描述目前卷积网络的趋势、跟卷积网络理解有关所做的努力,以及提出目前仍然存在的最大的缺点和问题所在。
第二章
多层网络结构
这一章将会对目前在计算机视觉效果最为突出的多层网络结构给出简要的概述。特别的,这一章尽管会覆盖在文学方面最重要的贡献,但是不会提供详细的结构解析,因为这些可以从别的地方获得[17,56,90]。相反地,这一章的目的是为了提供基础,给其他的文献和相关的详细的介绍以及关于目前对卷积网络再视觉信息处理的讨论。
2.1 写作动机
在以深度网络为基础的成功之前,最先进的视觉识别系统主要包括两个独立但是互补的步骤。首先,输入的数据通过手工设计的特征进行变换(比如,通过偏差值、局部和全局编码方法卷积)达到适合的形式。
立个flag,由于忙别的暂时把深度学习放一边,后面学习深度学习的时候,再更新