强大的卷积网络是如何运行?

共 1 个回答

切换为时间排序
狐狸

2020-11-22 07:48:52


卷积网络将图像视为体,也即三维物体,而非仅用宽度和高度测量的平面。这是因为,彩色数字图像具有红-绿-蓝(RGB)编码;通过将这三色混合,生成人类肉眼可见的色谱。卷积网络将这些图像作为彼此独立、逐层堆叠的三层色彩进行收集。


故而,卷积网络以矩形接收正常色彩的图像。这一矩形的宽度和高度由其像素点进行衡量,深度则包含三层,每层代表RGB中的一个字母。这些深度层被称为通道


我们以输入量和输出量来描述经过卷积网络处理的图像,在数学中以多维矩阵表示为:30x30x3。每一层的维度会发生变化,原因详见下文。


需要特别注意图像体各维度的精确测量结果,因为这些结果是用来处理图像的线性代数运算的基础。


对图像的各像素来说,R、G、B的强度将会以数字进行表示。该数字将是三个堆叠二维矩阵之一的元素。图像体由这些二维矩阵一起构成。


这些数字是输入卷积网络的最初原始感官特征,卷积网络意在上述数字中寻找显著信号,从而更精确地对图像进行分类。(就像我们讨论过的其他前馈网络一样。)


卷积网络并非对像素进行逐个处理,而是将包含多像素的方形片块经<strong<过滤器< strong="">扫描进行处理。该过滤器是同样方形的矩阵,尺寸小于图像,与片块等大,也可称为<strong<内核< strong="">。熟悉支持向量机的读者对此不会陌生。这一过滤器的工作是在像素间寻找图案。</strong<内核<></strong<过滤器<>


设想有两个矩阵,一个30x30,另一个3x3。也就是说,过滤器覆盖了图像通道表面积的十分之一。


我们使用这块图像通道得到过滤器的点积。如果两个矩阵在相同位置均具有较高的值,则点积输出会很高。反之,则输出会很低。如此,通过一个单值(即点积输出)便可以确定底层图像的像素图案是否符合过滤器所表示的像素图案。


设想过滤器表示的是一条水平线,其中第二行的值较高,第一、三行的值较低。现从底层图像左上角开始,逐步在图像上移动过滤器直至到达右上角。移动的幅度称为步幅。可每次以一列为单位向右移动过滤器,也可选择更大的步幅。


在每一步获取一个点积,并将点积结果置于被称为激活映射图的第三个矩阵中。激活映射图上的宽度(或列数)与过滤器在底层图像上移动的步数一致。因为步幅越大,步数越小,所以步幅大则激活映射图小。这点之所以重要,是因为卷积网络在各层处理并生成的矩阵的尺寸,与计算成本及所需时间是呈正比的。步幅较大,则所需时间和计算量较小。

置于前三行上的过滤器将经过这三行,而后再经过图像上的第4~6行。若步幅为三,那么生成的点积矩阵为10x10。代表水平线的相同过滤器也可用于底层图像的所有三个通道,亦即R、G和B。三个10x10的激活映射图可以叠加,因此底层图像三个通道上水平线的总体激活映射图也是10x10。


由于图像上不同指向的线非常多,而且图像包含许多不同的形状和像素图案,因此需要使用其他过滤器扫描底层图像,以搜索这些图案。举例说,可以在像素中搜索96种不同图案。这96种图案可构成96张激活映射图,生成10x10x96的新体。在下图中,我们对输入图像、内核和输出的激活映射图重新作了标明。


我们刚才描述的即是卷积。可以把卷积想象为信号处理中的一种奇特乘法。也可将两个矩阵生成点积想象为两个函数。图像就是底层函数,而过滤器就是在其上“卷过”的函数。


图像的主要问题在于其高维度,原因是对高维度的处理时间和运算能力成本很高。卷积网络就是为了通过各种方式降低图像的维度而设计的。过滤器步幅即是减少维度的一种方法,另一种方法是降采样。



最大池化/降采样


卷积网络的下一层有三个名称:最大池化、降采样和二次抽样。如卷积的方法一样,将激活映射图每次一个片块地输入降采样层。最大池化仅取图像一个片块的最大值,将之置于存有其他片块最大值的矩阵中,并放弃激活映射图中所载的其他信息。


感谢Andrej Karpathy供图。



仅保留图像中与各特征(最大值)相关性最大的位置。这些最大值一起构成了一个较低维度的空间。

这一步骤会损失关于较低值的许多信息。这也激发了对替代方法的研究。不过,正因为信息的损失,降采样也有所需存储空间和处理过程较少的优势。



交流层


下图是另一种显示典型卷积网络所涉转换顺序的方式。


从左至右:

  • 为采集特征而得到扫描的实际输入图像。浅灰色矩形是扫描图像的过滤器。

  • 逐层叠堆的激活映射图;每一层为一个得到使用的过滤器。较大的矩形是待降采样的片块。

  • 通过降采样压缩的激活映射图。

  • 通过使过滤器扫描首个已被降采样的映射图堆而得到的一组新激活映射图。

  • 压缩第二组激活映射图的第二次降采样。

  • 一节点一标记对输出进行分类的完全连接层。


随着信息损失增多,由卷积网络处理的图案变得更为抽象,与人类肉眼所能识别图案之间的差异也变得更大。故而,如果随着卷积网络的深入发展,以致无法简单地用直觉进行理解,也不必担心。






更多机器人、无人机/、AI技术资料(点左下角阅读原文)



共 1 条
  • 1
前往
68回答数