不懂卷积神经网络？别怕，看完这几张萌图你就明白了

AI资讯2年前 (2023)发布 AI工具箱

林鳞编译自 authomaton.blogspot

量子位出品 | 公众号 QbitAI

这篇文章用最简明易懂的方式解释了卷积神经网络（CNN）的基本原理，并绕开了里面的数学理论。

同时，如果想对从头开始构建CNN网络之类的问题感兴趣，作者推荐去读《 Artificial Intelligence for Humans Volume 3: Deep Learning and Neural Networks》中第10章节的内容。

不多说了，开始CNN之旅——

网络结构

CNN的模型通常建立在前馈神经网络模型之上，它的结构你也应该不陌生。不同是的，“隐藏层”将被以下这些层取代：

卷积层（Convolutional Layers）

池化层（Pooling Layers）

全连接层（稠密层，Dense Layers）

结构类似下图：

卷积

在此阶段，输入图像被一个grid扫描，并作为输入传递到网络。之后，这个网络将一层卷积层应用于输入的图像，将它分割成包含3张图像的三维立方体结构。这3三张图像个框架分别呈现原图的红色、绿色和蓝色信息。

随后，它将卷积滤波器（也称神经元）应用到图像中，和用PhotoShop中的滤镜突出某些特征相似。例如在动画片《Doc And Mharti》中，用罗伯茨交叉边缘增强滤波器处理过的效果如下图所示：

△ 原图

△ 处理后

可以想象，拥有100多个不同滤波器的神经网络筛选复杂特征的能力有多强大，这将大大助力它识别现实世界中事物。一旦神经网络已经将卷积滤波器应用到图像中，我们就能得到特征/激活图。

特征图谱会被指定区域内的特定神经元激活，比如我们将边缘检测滤波器添加到下面左图中，则它的激活图如右图所示：

△ 这些点代表0的行（表明这些区域可能是边缘）。在二维数组中，“30”的值表明图像区域存在边缘的可能性很高

激活层

当我们有了激活图，就能在其中让激活函数大显身手了，我们用研究人员的首选函数——ReLU激活函数（修正线性单元）举个例子。然而，一些研究人员仍然认为用Sigmoid函数或双曲切线能得到提供最佳的训练结果，但我不这么认为。

使用激活层是在系统中引入非线性，这样可以提高输入和输出的一般性。ReLU(x)函数只返回max(0、x)或简单地返回激活图中的负权值。

池化层

之后的最佳做法通常是在特征图中应用最大池化(或任何其他类型的池)。应用最大池化层的原理是扫描小型grid中的图像，用一个包含给定grid中最高值的单个单元替换每个grid：

这样做的重要原因之一是，一旦我们知道给定特征在一个给定的输入区域，我们可以忽略特征的确切位置将数据普遍化，减少过拟合。举个例子，即使训练精度达到99%，但拿到没见过的新数据上测试时，它的精确度也只有50%。

输出层

最大池化层后我们讲讲剩下的另一个激活图，这是传递给全连接网络的一部分信息。它包含一个全连接层，将上一层中每个神经元的输出简单映射到全连接层的一个神经元上，并将softmax函数应用到输出中，就是和我们之前提到的ReLU函数类似的激活函数。

因为我们将用神经网络将图片分类，因此这里使用了softmax函数。softmax输出返回列表的概率求和为1，每个概率代表给定图像属于特定输出类的概率。但后来涉及到图像预测和修复任务时，线性激活函数的效果就比较好了。

值得注意的是，讲到这里我们只考虑了单卷积层和单池层的简单情况，如果要实现最佳精度通常需要它们多层堆叠。经过每个完整的迭代后，通过网络反向根据计算损失更新权重。

原文地址：https://authomaton.blogspot.co.uk/2017/10/machine-learning-but-funner-02.html

— 完 —

诚挚招聘

量子位正在招募编辑/记者，工作地点在北京中关村。期待有才气、有热情的同学加入我们！相关细节，请在量子位公众号(QbitAI)对话界面，回复“招聘”两个字。

量子位 QbitAI

վ’ᴗ’ ի 追踪AI技术和产品新动态

“

# AI资讯

文章版权归作者所有，未经允许请勿转载。

这家刚拿了1亿美元的基金会，要证明“21世纪是生物的世纪”

AI工具箱

371

钟南山：中国第一批疫苗要公布了

AI工具箱

509

艾玛不哭！AI引起的“换脸”问题，AI正在解决

AI工具箱

526

校招污点公司名单火了/ 马斯克与库克误会解除/ 苹果M2 Max跑分泄露…今日更多新鲜事在此

AI工具箱

403

联想宣布推出全球首款5G电脑

AI工具箱

426

Linux之父警告全球程序员：我刚发布的5.12内核有bug，你们千万别用

AI工具箱

365

暂无评论

暂无评论...

不懂卷积神经网络？别怕，看完这几张萌图你就明白了

网络结构

卷积

激活层

池化层

输出层

ICLR19论文：口哨声变交响乐，神经网络一键改变音乐风格 | 开源

华为：预计2019年销售收入超过8500亿，不达年初预期

相关文章

暂无评论