介绍了计算机视觉领域内比较成功的10个深度学习架构-德赢Vwin官网网

近年来，深度学习的发展势头迅猛，要跟上深度学习的进步速度变得越来越困难了。几乎每一天都有关于深度学习的创新，而大部分的深度学习创新都隐藏在那些发表于ArXiv和Spinger等研究论文中。

简洁起见，本文中只介绍了计算机视觉领域内比较成功的深度学习架构。

什么是深度学习“高级架构”？

不同类型的计算机视觉任务

各种深度学习架构

何为深度学习“高级架构”？

与一个简单的机器学习算法相比，深度学习算法包含了更加多样的模型。其中的原因是在建立一个完整的模型时，神经网络具有很大的灵活性。

有时，我们还可以把神经网络比作乐高积木，可以用它搭建任何简单或者复杂的小建筑。

我们其实可以将“高级架构”简单地定义为一个有着成功模型记录的深度学习架构，这样的“高级架构”主要出现在类似ImageNet的挑战中，在这些挑战中，你的任务是解决问题，比如用给定的数据完成图像识别。简单来说，ImageNet就是一项关于数据集的挑战，而其中的数据集是从ILSVR（ImageNet大规模视觉识别）中获得的。

就像下文即将提到的架构，其中的每个架构之间都有细微的差别，而正是这些差别使它们区别于普通的模型，让它们在解决问题的时候发挥出普通模型不具备的优势。这些架构同样属于“深度模型”的范畴，因此它们的性能也很可能优于其相对应的“浅层模型”。

不同类型的“计算机视觉任务”

本文主要关注于“计算机视觉”，所以很自然地会涉及到“计算机视觉”的任务。顾名思义，“计算机视觉任务”就是建立一个能够复制完成人类视觉任务的计算机模型。这实质上意味着，我们视力所见和感知的内容是一个能够在人造系统中被理解和完成的程序。

计算机视觉任务的主要类型有：

物体识别/分类：在物体识别中，你会得到一张原始图像，而你的任务就是判断出这张图像属于哪一类别。

分类及定位：如果图像中只有一个对象，那么你的任务就是找到该对象的位置。这个问题应该更加具体地表述为“定位问题”。

物体检测：在物体检测中，你的任务是识别出物体处于图像中的什么位置。这些对象可能属于同一类别，也可能属于不同类别。

图像分割：图像分割是一项稍微复杂的任务，其目的是将图像的各个像素映射到其对应的各个类别。

目前，我们已经了解了深度学习“高级架构”，并探究了各种类型的计算机视觉任务。那么接下来，我们将列举出最重要的深度学习架构，并且对这些架构进行简单的介绍：

AlexNet

AlexNet是第一个深度学习架构，它是由深度学习先锋之一——Geoffrey Hinton和他的同事们共同研究并引入的。AlexNet是一个看似简单但功能非常强大的网络架构，它为现在深度学习的突破性研究铺平了道路。下图是AlexNet架构：

介绍了计算机视觉领域内比较成功的10个深度学习架构

从分解图中我们可以看出，AlexNet其实就是一个简单的架构，其中的卷积层和聚积层相互叠加，最顶部的是全连接层。

早在二十世纪八十年代，AlexNet模型就已经被概念化描述了。AlexNet区别于其他模型的关键在于它的任务规模，以及它用于训练的GPU规模。在八十年代，用于训练神经网络的是CPU。而AlexNet率先使用GPU，将训练的速度提高了十倍左右。

虽然AlexNet现在有些过时了，但它仍然是运用神经网络完成各种任务的起点。不管是完成计算机视觉任务，还是语音识别任务，都仍然需要AlexNet。

VGG Net

“VGG Net”是由牛津大学“视觉图像研究组”的研究人员引入的。VGG网络的最大特点是它的金字塔状，靠近图像的底部比较宽阔，而顶部的层相对窄且深。

如图所示，VGG Net包含了连续的卷积层，卷积层后紧接着聚积层。聚积层负责让各个层变得更窄。在这篇由组内研究人员共同完成的论文中，他们提出了各种类型的网络，这些网络架构的主要差异是深度不同。

VGG网络的优势在于：

1.这是对一个特定任务进行基准测试非常有效的网络架构。

102.同时，网上有大量免费的VGG预训练网络，因此，VGG通常会被用于各种各样的应用程序。

而另一方面，VGG主要的缺陷在于如果从头开始训练的话，其训练速度会非常慢。即使是用一个相当不错的GPU，它还是需要超过一周的时间才能正常运行。

GoogleNet

GoogleNet（又称“InceptionNet”）是由谷歌的研究人员们设计的一个网络架构。GoogleNet在2014年的 ImageNet大赛中获得了冠军，证明了它是一个功能强大的模型。

在这个网络架构中，研究人员们不仅加深了网络深度（GoogleNet包含22个层，而VGG网络只有19个层），还研究出了一个叫做“Inception模块”的新方法。

介绍了计算机视觉领域内比较成功的10个深度学习架构

如上图所示，这个架构与我们之前看到的有序性架构相比，发生了巨大的改变。在单个层中出现了各种各样的“特征提取器”。这间接地提高了网络的性能，因为当处理任务时，网络在自我训练过程中的选择非常广泛。它既可以选择卷积输入，也可以选择直接将输入聚积起来。

介绍了计算机视觉领域内比较成功的10个深度学习架构

最终的架构包含了许多一个个相互叠加的Inception模块。大部分最上面的层都有它们自己的输出层，所以GoogleNet的训练与其他模型有细微的差别。但这些差别能够帮助模型更快地完成卷积，因为这些层不仅有共同的训练，还有各自独立的训练。

GoogleNet的优势有：

1.GoogleNet的训练速度比VGGNet要快。

2.与预训练的VGG网络相比，预训练的GoogleNet所占规模更小。一个VGG模型所占空间可以超过500MB，而GoogleNet只占96MB。

目前为止，GoogleNet还没有直接的缺陷，但是文章中提出了一些有助于GoogleNet进一步完善的改变方案。其中有一个改变方案被称作“XceptionNet”，在这个网络中，“初始模块”的散度限制被提高了。理论上来说，其散度现在可以是无限的了。

ResNet

ResNet是一个真正地定义了深度学习架构深度的网络架构。“残差网络”，也就是我们所说的ResNet，包含了许多连续的“残差模块”，这些“残差模块”构成了ResNet架构的基础。“残差模块”如下图所示：

简单来说，一个“残差模块”有两个选择——它可以选择在输入上执行一组函数，也可以选择跳过这些步骤。

与GoogleNet类似，这些“残差模块”相互叠加，从而形成一个完整的网络的。

由ResNet引入的一些新技术有：

1.使用标准的SGD，而不是花哨的“自适应学习”技术。这是通过一个能够保持正常训练的初始化函数来完成的。

2.改变输入预处理的方式，先将输入分批，然后再输入至网络。

ResNet的主要优势在于，成千上万的残差层都能用于建立一个网络，而且都能被用于训练。这与平常的“时序网络”稍有不同，“时序网络”的性能会因为层数的增加而降低。

ResNeXt

据称，ResNeXt是目前为止最先进的物体识别技术。ResNeXt建立于inception和ResNet的基础之上，是一个全新的、改良的网络架构。下图总结了ResNeXt的一个残差模块：

介绍了计算机视觉领域内比较成功的10个深度学习架构

RCNN(Region Based CNN)

RCNN据说是用于解决物体识别问题的深度学习架构中最具影响力的网络架构。为了解决识别检测问题，RCNN试图框出图像中的所有物体，然后再识别图像中的物体具体是什么。其操作流程如下：

介绍了计算机视觉领域内比较成功的10个深度学习架构

RCNN的结构如下图：

YOLO (You Only Look Once)

YOLO是目前为止最先进的实时图像识别系统，它是以深度学习为基础的。正如我们在下图中所看到的，它首先将图像分成一个个小方格；然后将识别算法一一运行于这些格子，判断每个格子分别属于什么物体类别，之后把同一类别的方格合并起来，形成一个个最准确的物体框。
介绍了计算机视觉领域内比较成功的10个深度学习架构

这些操作都是各自独立完成的，因此能够实现实时运行。一秒内最多能够处理40张图像。

虽然与其对应的RCNN相比，YOLO的性能降低了，但是它的实时处理功能在处理日常问题中仍有巨大的优势。以下是YOLO网络架构：

介绍了计算机视觉领域内比较成功的10个深度学习架构

SqueezeNet

SqueezeNet架构是一个功能更加强大的网络架构，它在类似移动平台这样的低宽带场景中非常有用。这个网络架构仅占4.9MB的空间，而Inception则占超过100MB空间。这样显著的变化来源于一个叫做“fire模块”的结构。“fire模块”如下图所示：
介绍了计算机视觉领域内比较成功的10个深度学习架构

下图为squeezeNet的最终架构：

SegNet

SegNet是一个用于解决图像分割的深度学习架构。它包含了一系列处理层（编码器）以及一组用于像素分类的对应的解码器。下图总结了SegNet的操作过程：

介绍了计算机视觉领域内比较成功的10个深度学习架构

SegNet的一个关键特征是：在分割图像中保留了高频率的细节，因为编码网络的聚积索引与解码网络的聚积索引是相互连接的。简言之，信息的传递是直接的，而不是通过间接的卷积实现的。SegNet是处理图像分割问题时的最佳模型。

GAN (Generative Adversarial Network)

GAN是一个完全不同的神经网络架构，其中的神经网络被用于生成一个全新的不存在的图像，这个图像看似在训练数据集中出现过，但实际上并没有。下图是GAN的分解示意图。

介绍了计算机视觉领域内比较成功的10个深度学习架构

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表德赢Vwin官网网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

计算机视觉

计算机视觉

+关注

关注
8

文章
1698

浏览量
45970
深度学习

深度学习

+关注

关注
73

文章
5500

浏览量
121109

原文标题：数据科学家必须知道的 10 个深度学习架构

文章出处：【微信号：melux_net，微信公众号：人工智能大趋势】欢迎添加关注！文章转载请注明出处。

计算机视觉/深度学习领域常用数据集汇总

、定位、检测等研究工作大多基于此数据集展开。Imagenet数据集文档详细，有专门的团队维护，使用非常方便，在计算机视觉领域研究论文中应用非常广，几乎成为了目前深度

发表于 08-29 10:36

深度学习在计算机视觉领域图像应用总结精选资料下载

突破的领域，真正让大家大吃一惊的颠覆传统方法的应用领域是语音识别，做出来的公司是微软，而不是当时如日中天的谷歌。计算机视觉应用深度

发表于 07-28 08:22

超全！深度学习在计算机视觉领域应用一览（附链接）精选资料分享

这是一份深度学习在计算机视觉领域的超全应用预览~简单回顾的话，2006年Geof...

发表于 07-28 07:35

深度学习与传统计算机视觉简介

文章目录1 简介1.1 深度学习与传统计算机视觉1.2 性能考量1.3 社区支持2 结论3 参考在计算机

发表于 12-23 06:17

技术 | 深度学习在计算机视觉领域的瓶颈已至

霍金的弟子，约翰霍普金斯大学教授Alan Yuille提出“深度学习在计算机视觉领域的瓶颈已至。

发表于 07-05 10:07 •2559次阅读

深度学习后的计算机视觉应用领域解析

计算机视觉是使用计算机及相关设备对生物视觉的一种模拟，是人工智能领域的一个重要部分，它主要任务是

发表于 07-22 16:49 •1855次阅读

深度学习在计算机视觉上的四大应用

计算机视觉中比较成功的深度学习的应用，包括人脸识别，图像问答，物体检测，物体跟踪。

发表于 08-24 16:16 •4765次阅读

DL和传统计算机视觉的比较

来自《Deep Learning vs. Traditional Computer Vision》摘要：深度学习推动了数字图像处理领域的极限。但是，这并不是说传统计算机

发表于 10-31 11:06 •5281次阅读

深度学习和传统计算机视觉技术在新兴领域的比较

是不是深度学习就可以解决所有问题呢？是不是它就比传统计算机视觉方法好呢？但是深度学习无法解决所有

发表于 11-28 11:01 •1604次阅读

浅谈深度学习在计算机视觉领域的三大瓶颈

深度学习能够实现的前提是大量经过标注的数据，这使得计算机视觉领域的研究人员倾向于在数据资源丰富的领域

发表于 06-11 10:22 •437次阅读

计算机视觉中的九种深度学习技术

计算机视觉中仍有许多具有挑战性的问题需要解决。然而，深度学习方法正在针对某些特定问题取得最新成果。在最基本的问题上，最有趣的不仅仅是深度

发表于 08-21 09:56 •594次阅读

反思深度学习与传统计算机视觉的关系

某种程度上，深度学习最大的优势就是自动创建没有人会想到的特性能力。如今，深度学习在众多领域都有一席之地，尤其是在

发表于 09-12 08:29 •564次阅读

计算机视觉的主要研究方向

计算机视觉（Computer Vision, CV）作为人工智能领域的一个重要分支，致力于使计算机能够像人眼一样理解和解释图像和视频中的信息

发表于 06-06 17:17 •947次阅读

深度学习在计算机视觉领域的应用

随着人工智能技术的飞速发展，深度学习作为其中的核心技术之一，已经在计算机视觉领域取得了显著的成果。计算机

发表于 07-01 11:38 •771次阅读