强大的卷积网络是如何运行？

写回答点赞

共 1 个回答

切换为时间排序

狐狸

2020-11-22 07:48:52

卷积网络将图像视为体，也即三维物体，而非仅用宽度和高度测量的平面。这是因为，彩色数字图像具有红－绿－蓝（RGB）编码；通过将这三色混合，生成人类肉眼可见的色谱。卷积网络将这些图像作为彼此独立、逐层堆叠的三层色彩进行收集。

故而，卷积网络以矩形接收正常色彩的图像。这一矩形的宽度和高度由其像素点进行衡量，深度则包含三层，每层代表RGB中的一个字母。这些深度层被称为通道。

我们以输入量和输出量来描述经过卷积网络处理的图像，在数学中以多维矩阵表示为：30x30x3。每一层的维度会发生变化，原因详见下文。

需要特别注意图像体各维度的精确测量结果，因为这些结果是用来处理图像的线性代数运算的基础。

对图像的各像素来说，R、G、B的强度将会以数字进行表示。该数字将是三个堆叠二维矩阵之一的元素。图像体由这些二维矩阵一起构成。

这些数字是输入卷积网络的最初原始感官特征，卷积网络意在上述数字中寻找显著信号，从而更精确地对图像进行分类。（就像我们讨论过的其他前馈网络一样。）

卷积网络并非对像素进行逐个处理，而是将包含多像素的方形片块经<strong<过滤器< strong="">扫描进行处理。该过滤器是同样方形的矩阵，尺寸小于图像，与片块等大，也可称为<strong<内核< strong="">。熟悉支持向量机的读者对此不会陌生。这一过滤器的工作是在像素间寻找图案。</strong<内核<></strong<过滤器<>

设想有两个矩阵，一个30x30，另一个3x3。也就是说，过滤器覆盖了图像通道表面积的十分之一。

我们使用这块图像通道得到过滤器的点积。如果两个矩阵在相同位置均具有较高的值，则点积输出会很高。反之，则输出会很低。如此，通过一个单值（即点积输出）便可以确定底层图像的像素图案是否符合过滤器所表示的像素图案。

设想过滤器表示的是一条水平线，其中第二行的值较高，第一、三行的值较低。现从底层图像左上角开始，逐步在图像上移动过滤器直至到达右上角。移动的幅度称为步幅。可每次以一列为单位向右移动过滤器，也可选择更大的步幅。

在每一步获取一个点积，并将点积结果置于被称为激活映射图的第三个矩阵中。激活映射图上的宽度（或列数）与过滤器在底层图像上移动的步数一致。因为步幅越大，步数越小，所以步幅大则激活映射图小。这点之所以重要，是因为卷积网络在各层处理并生成的矩阵的尺寸，与计算成本及所需时间是呈正比的。步幅较大，则所需时间和计算量较小。

置于前三行上的过滤器将经过这三行，而后再经过图像上的第4～6行。若步幅为三，那么生成的点积矩阵为10x10。代表水平线的相同过滤器也可用于底层图像的所有三个通道，亦即R、G和B。三个10x10的激活映射图可以叠加，因此底层图像三个通道上水平线的总体激活映射图也是10x10。

由于图像上不同指向的线非常多，而且图像包含许多不同的形状和像素图案，因此需要使用其他过滤器扫描底层图像，以搜索这些图案。举例说，可以在像素中搜索96种不同图案。这96种图案可构成96张激活映射图，生成10x10x96的新体。在下图中，我们对输入图像、内核和输出的激活映射图重新作了标明。