YOLOv5-v6.0学习笔记-德赢Vwin官网网

网络结构

1.1 Backbone

YOLOv5-6.0版本的Backbone主要分为Conv模块、CSPDarkNet53和SPPF模块。

1.1.1 Conv模块

YOLOv5在Conv模块中封装了三个功能：包括卷积(Conv2d)、Batch Normalization和激活函数，同时使用autopad(k, p)实现了padding的效果。其中YOLOv5-6.0版本使用Swish(或者叫SiLU)作为激活函数，代替了旧版本中的Leaky ReLU。

1.1.2 Focus模块

Focus模块是YOLOv5旧版本中的一个模块，它的结构如下图所示。

其中核心部分是对图片进行切片(slice)操作，并且在通道维度上进行拼接。

如下图所示，对于一张3通道的输入图片，分别在w ww和h hh两个维度上，每隔一个像素取一个值，从而构建得到12张特征图。

这12张特征图在宽度和高度上变为原来的二分之一但是通道维度扩充了4倍。

同时，这12张特征图包含了输入图片的所有信息，因此Focus模块不仅在减少信息丢失的情况下实现了2倍下采样。

而且减少了参数量(params)和计算量(FLOPs)，降低了CUDA显存的消耗，从而提升了前向和后向传递的速度。

最后对拼接后的特征图进行一次卷积操作，将通道数增加到64。

但是在YOLOv5-6.0版本中使用了尺寸大小为6 66×6 66，步长为2，padding为2的卷积核代替了Focus模块，便于模型的导出，且效率更高。

1.1.3 CSPDarkNet53

1.1.3.1 CSPNet

CSPNet被提出的主要目的是为了保证在模型检测和识别精度没有下降的情况下，减少计算量，提高推理速度。

它的主要思想是通过分割梯度流，使梯度流通过不同的网络路径传播。通过拼接和过渡等操作，从而实现更丰富的梯度组合信息。

Cross Stage Partial DenseNet

以DenseNet为例，在将特征图输入到Dense_Block之前，将特征图从通道维度上分为两个部分：

其中一部分进入Dense_Block中进行计算，另一部分则通过一个shortcut与Dense_Block的输出特征图进行拼接，最后将拼接后的特征图输入到Transition Layer进行卷积操作。

1.1.3.2 Bottleneck模块

Bottleneck模块借鉴了ResNet的残差结构，其中一路先进行1 11×1 11卷积将特征图的通道数减小一半。

从而减少计算量，再通过3 33×3 33卷积提取特征，并且将通道数加倍，其输入与输出的通道数是不发生改变的。

而另外一路通过shortcut进行残差连接，与第一路的输出特征图相加，从而实现特征融合。

在YOLOv5的Backbone中的Bottleneck都默认使shortcut为True，而在Head中的Bottleneck都不使用shortcut。

1.1.3.3 C3模块

YOLOv4和YOLOv5均借鉴了CSPNet的思想，将其运用于DarkNet53骨干网络。YOLOv5-6.0版本中使用了C3模块，替代了早期的BottleneckCSP模块。

C3模块

BottleneckCSP模块

这两者结构作用基本相同，均为CSP架构，只是在修正单元的选择上有所不同，C3模块包含了3个标准卷积层以及多个Bottleneck模块。

C3模块相对于BottleneckCSP模块所不同的是，经过Bottleneck模块输出后的Conv模块被去掉了。

但是YOLOv4和YOLOv5的Backbone虽然借鉴了CSPNet，但实际上并没有按照CSPNet原论文中那样将输入的特征图在通道维度上划分成两个部分。

而是直接用两路的1 11×1 11卷积对输入特征图进行变换。

1.1.4 SPPF模块

参考链接：

https://github.com/ultralytics/yolov5/pull/4420

YOLOv5-6.0版本使用了SPPF模块来代替SPP模块，其中SPP是Spatial Pyramid Pooling的简称，即空间金字塔池化，YOLOv5借鉴了SPPNet的思想。

SPPF模块采用多个小尺寸池化核级联代替SPP模块中单个大尺寸池化核，从而在保留原有功能。

即融合不同感受野的特征图，丰富特征图的表达能力的情况下，进一步提高了运行速度。

SPPF模块

SPP模块

1.2 Neck

YOLOv5的Neck与YOLOV4相似，均借鉴了FPN和PANet的思想。

1.2.1 FPN

论文链接：https://arxiv.org/abs/1612.03144

FPN，即Feature Pyramid Network(特征金字塔)。

原来多数的目标检测算法只是采用顶层特征做预测，但我们知道浅层的特征所携带的语义信息较少，而位置信息更强；

深层的特征所携带的语义信息较丰富，而位置信息更弱。FPN的思想就是把深层的语义信息传递到浅层，从而增强多个尺度上的语义表达。

FPN的大致结构如上图所示，左边是一个自底向上(Bottom-up)的传播路径，右边是一个自顶向下(Top-down)的传播路径，中间是通过横向连接(lateral connection)进行特征融合。

其中自底向上(Bottom-up)的过程就是网络的前向传播过程，对应前面的骨干网络(Backbone)。

在前向过程中，feature map的大小在经过某些层后会改变，而在经过其他一些层的时候不会改变，作者将不改变feature map大小的层归为一个stage。

因此每次抽取的特征都是每个stage的最后一层的输出，这样就能构成特征金字塔。

自顶向下(Top-down)的过程是从小尺寸的feature map开始逐个stage进行2倍上采样。

而横向连接则是先由自底向上(Bottom-up)过程中生成的相同大小的feature map经过1 11×1 11的卷积核来减少通道数(如下图所示)。

然后与2倍上采样得到的feature map进行相加融合(在YOLOv5中采用的是拼接融合)。

在融合之后还会对每个融合结果进行3 33×3 33卷积，目的是消除上采样的混叠效应(aliasing effect)。

1.2.2 PANet

论文链接：https://arxiv.org/abs/1803.01534

FPN通过自顶向下(Top-down)的结构，将深层的语义信息传递到浅层，但是浅层的位置信息却无法影响到深层特征。

同时，FPN中顶部信息流需要通过骨干网络(Backbone)逐层地往下传递，由于层数相对较多，因此计算量比较大，而PANet有效地解决了上述这些问题。

如上图(b)所示，PANet在FPN的基础上又引入了一个自底向上(Bottom-up)的路径。

经过自顶向下(Top-down)的特征融合后，再进行自底向上(Bottom-up)的特征融合，这样底层的位置信息也能够传递到深层，从而增强多个尺度上的定位能力。

同时，与FPN相比(如红色线条所示)，PANet中的底层特征传递所需要穿越的feature map数量大大减少(如绿色线条所示)，使得底层的位置信息更容易传递到顶部。

其中自底向上(Bottom-up)的过程是沿着N 2 → N 3 → N 4 → N 5 的路径，逐个stage通过3 33×3 33卷积进行2倍下采样，然后与FPN中相应大小的feature map进行相加融合(在YOLOv5中采用的是拼接融合)。

1.3 Head

YOLOv5的Head对Neck中得到的不同尺度的特征图分别通过1 11×1 11卷积将通道数扩展，扩展后的特征通道数为(类别数量+5)× ××每个检测层上的anchor数量。

其中5 55分别对应的是预测框的中心点横坐标、纵坐标、宽度、高度和置信度，这里的置信度表示预测框的可信度。

取值范围为( 0 , 1 ) (0,1)(0,1)，值越大说明该预测框中越有可能存在目标。

Head中包含3个检测层，分别对应Neck中得到的3种不同尺寸的特征图。

YOLOv5根据特征图的尺寸在这3种特征图上划分网格，并且给每种特征图上的每个网格都预设了3个不同宽高比的anchor，用来预测和回归目标。

因此上述的通道维度可以理解为在特征图的通道维度上保存了所有基于anchor先验框的位置信息和分类信息，如下图所示。

目标框回归

YOLOv5的目标框回归计算公式如下所示：

其中( b x , b y , b w , b h )表示预测框的中心点坐标、宽度和高度，( c x , c y )表示预测框中心点所在网格的左上角坐标，( t x , t y )

表示预测框的中心点相对于网格左上角坐标的偏移量，( t w , t h ) 表示预测框的宽高相对于anchor宽高的缩放比例，( p w , p h ) )表示先验框anchor的宽高。

为了将预测框的中心点约束到当前网格中，使用Sigmoid函数处理偏移量，使预测的偏移值保持在( 0 , 1 ) (0,1)(0,1)范围内。

这样一来，根据目标框回归计算公式，预测框中心点坐标的偏移量保持在( − 0.5 , 1.5 ) (-0.5,1.5)(−0.5,1.5)范围内。如上图蓝色区域所示。

正负样本匹配

如上面所述，YOLOv5的每个检测层上的每个网格都预设了多个anchor先验框，但并不是每个网格中都存在目标，也并不是每个anchor都适合用来回归当前目标。

因此需要对这些anchor先验框进行筛选，将其划分为正样本和负样本。本文的正负样本指的是预测框而不是Ground Truth(人工标注的真实框)。

与YOLOv3/4不同的是，YOLOv5采用的是基于宽高比例的匹配策略，它的大致流程如下：

1.对于每一个Ground Truth(人工标注的真实框)，分别计算它与9种不同anchor的宽与宽的比值(w1/w2, w2/w1)和高与高的比值(h1/h2, h2/h1)。

2.找到Ground Truth与anchor的宽比(w1/w2, w2/w1)和高比(h1/h2, h2/h1)中的最大值，作为该Ground Truth和anchor的比值。

3.若Ground Truth和anchor的比值小于设定的比值阈值(超参数中默认为anchor_t = 4.0)。

那么这个anchor就负责预测这个Ground Truth，即这个anchor所回归得到的预测框就被称为正样本，剩余所有的预测框都是负样本。

通过上述方法，YOLOv5不仅筛选了正负样本，同时对于部分Ground Truth在单个尺度上匹配了多个anchor来进行预测，总体上增加了一定的正样本数量。

除此以外，YOLOv5还通过以下几种方法增加正样本的个数，从而加快收敛速度。

1.跨网格扩充：假设某个Ground Truth的中心点落在某个检测层上的某个网格中，除了中心点所在的网格之外，其左、上、右、下4个邻域的网格中。

靠近Ground Truth中心点的两个网格中的anchor也会参与预测和回归，即一个目标会由3个网格的anchor进行预测，如下图所示。

2.跨分支扩充：YOLOv5的检测头包含了3个不同尺度的检测层，每个检测层上预设了3种不同长宽比的anchor，假设一个Ground Truth可以和不同尺度的检测层上的anchor匹配。

则这3个检测层上所有符合条件的anchor都可以用来预测该Ground Truth，即一个目标可以由多个检测层的多个anchor进行预测

损失计算

4.1 总损失

YOLOv5对特征图上的每个网格进行预测，得到的预测信息与真实信息进行对比，从而指导模型下一步的收敛方向。

损失函数的作用就是衡量预测信息和真实信息之间的差距，若预测信息越接近真实信息，则损失函数值越小。YOLOv5的损失主要包含三个方面：

矩形框损失(bbox_loss)、分类损失(cls_loss)、置信度损失(obj_loss)。

总损失的表达式为：

Loss=box_gain×bbox_loss+cls_gain×cls_loss+obj_gain×obj_loss

其中b o x _ g a i n box\_gainbox_gain、c l s _ g a i n 分别对应不同的损失权重，默认值分别为0.05，0.5，1.0。

4.2 边界框损失

文链接：https://arxiv.org/abs/1911.08287

IoU，即交并比，它的作用是衡量目标检测中预测框与真实框的重叠程度。假设预测框为A，真实框为B，则IoU的表达式为：IoU= A⋃BA⋂B

但是当预测框与真实框没有相交时，IoU不能反映两者之间的距离，并且此时IoU损失为0，将会影响梯度回传，从而导致无法训练。

此外，IoU无法精确的反映预测框与真实框的重合度大小。因此为了改进IoU，又不断提出了GIoU、DIoU和CIoU等一系列IoU的变种。

YOLOv5默认使用CIoU来计算边界框损失。CIoU是在DIoU的基础上，进一步考虑了Bounding Box的宽高比。

其中DIoU将预测框和真实框之间的距离，重叠率以及尺度等因素都考虑了进去，使得目标框回归变得更加稳定。它的损失计算公式为

其中b和b^{gt}分别表示预测框和真实框的中心点，ρ hoρ表示两个中心点之间的欧式距离，c 表示预测框和真实框的最小闭包区域的对角线距离，如下图所示

4.3 分类损失

4.4 置信度损失

每个预测框的置信度表示这个预测框的可靠程度，值越大表示该预测框越可靠，也表示越接近真实框。

如下图所示，红点A 、B 、C 、D 表示真实框的中心点，那么每个红点所在网格对应的anchor所预测和回归得到的预测框置信度应该比较大甚至接近1，而其它网格对应的预测框置信度则会比较小甚至接近0。

对于置信度标签，YOLO之前的版本认为所有存在目标的网格(正样本)对应的标签值均为1，其余网格(负样本)对应的标签值为0。

但是这样带来的问题是有些预测框可能只是在目标的周围，而并不能很好地框住目标。

因此YOLOv5的做法是，根据网格对应的预测框与真实框的CIoU作为该预测框的置信度标签。它的代码实现如下：

tobj[b, a, gj, gi] = (1.0 - self.gr) + self.gr * score_iou

其中self.gr为标签平滑系数，当参数self.gr为1时，置信度标签就等于CIoU。

与计算分类损失一样，YOLOv5默认使用二元交叉熵函数来计算置信度损失。

除此以外，对于不同尺度的检测层上得到的置信度损失，YOLOv5分配了不同的权重系数。

按照检测层尺度从大到小的顺序，对应的默认的权重系数分别为4.0、1.0、0.4，即用于检测小目标的大尺度特征图上的损失权重系数更大，从而使得网络在训练时更加侧重于小目标。

数据增强

5.1 Mosaic

YOLOv5借鉴了YOLOv4中的Mosaic数据增强方法，它是CutMix数据增强方法的进化版。

主要思想是任意抽取四张图片进行随机裁剪，然后拼接到一张图片上作为训练数据，同时每张图片上的标注框也会进行相应的裁剪。

这样做的好处是变相增大了batch_size，丰富了图像背景，同时通过对识别物体的裁剪，使模型根据局部特征识别物体，有助于被遮挡物体的检测，从而提升了模型的检测能力。Mosaic数据增强的操作过程如下：

1.假设抽取的每张图片尺寸为( 640 , 640 ) ，重新拼接后的图片尺寸为( 1280 , 1280 ) 。在下图的灰色区域中随机生成一个中心点( x c , y c ) ，从而将平面分割成四块不同大小的区域。

labels4, segments4 = [], []
s = self.img_size
yc, xc = (int(random.uniform(-x, 2 * s + x)) for x in self.mosaic_border)

2.在加载第一张图片后，从数据集中再随机抽取三张图片，并打乱这四张图片的顺序。

indices = [index] + random.choices(self.indices, k=3)
random.shuffle(indices)

3.将第一张图像放置在左上角的区域，其右下角坐标与随机生成的中心点对齐；

将第二张图像放置在右上角的区域，其左下角坐标与随机生成的中心点对齐；

将第三张图像放置在左下角的区域，其右上角坐标与随机生成的中心点对齐；

将第四张图像放置在右下角的区域，其左上角坐标与随机生成的中心点对齐。

if i == 0: # top left
 img4 = np.full((s * 2, s * 2, img.shape[2]), 114, dtype=np.uint8)
 x1a, y1a, x2a, y2a = max(xc - w, 0), max(yc - h, 0), xc, yc
 x1b, y1b, x2b, y2b = w - (x2a - x1a), h - (y2a - y1a), w, h
elif i == 1: # top right
 x1a, y1a, x2a, y2a = xc, max(yc - h, 0), min(xc + w, s * 2), yc
 x1b, y1b, x2b, y2b = 0, h - (y2a - y1a), min(w, x2a - x1a), h
elif i == 2: # bottom left
 x1a, y1a, x2a, y2a = max(xc - w, 0), yc, xc, min(s * 2, yc + h)
 x1b, y1b, x2b, y2b = w - (x2a - x1a), 0, w, min(y2a - y1a, h)
elif i == 3: # bottom right
 x1a, y1a, x2a, y2a = xc, yc, min(xc + w, s * 2), min(s * 2, yc + h)
 x1b, y1b, x2b, y2b = 0, 0, min(w, x2a - x1a), min(y2a - y1a, h)


img4[y1a:y2a, x1a:x2a] = img[y1b:y2b, x1b:x2b] # img4[ymin:ymax, xmin:xmax]
padw = x1a - x1b
padh = y1a - y1b

4.假设抽取的图片尺寸超过了填充区域给定的大小，则需要对抽取的图片中超过填充区域的部分进行裁剪，如下图所示。

假设抽取的图片尺寸小于填充区域给定的大小，则需要对缺少的区域进行填充，如下图所示。

5.将归一化后的标注框坐标还原到原图尺寸，然后转换到拼接后的坐标系中，得到新的标注框坐标。

labels, segments = self.labels[index].copy(), self.segments[index].copy()
if labels.size:
 labels[:, 1:] = xywhn2xyxy(labels[:, 1:], w, h, padw, padh)
 segments = [xyn2xy(x, w, h, padw, padh) for x in segments]
labels4.append(labels)
segments4.extend(segments)

6.由于重新拼接后的图片尺寸为( 1280 , 1280 ) ，因此还需要将其尺寸缩放到( 640 , 640 ) ，保证与用于训练的输入图片尺寸一致。

5.2 MixUp

MixUp是一种简单的数据增强方法，它的主要思想是将两个随机样本的特征和标签进行加权求和，从而得到一个新的训练样本。

公式如下：

其中x 1和x 2 表示两个不同的输入样本，y 1 和y 2 表示两个不同的输入样本对应的标签，λ表示两个样本融合的比例系数，且满足Beta分布。

但是在YOLOv5中只对图像特征做了融合，而对标签做了拼接，具体的代码实现如下：

r = np.random.beta(32.0, 32.0)
im = (im * r + im2 * (1 - r)).astype(np.uint8)
labels = np.concatenate((labels, labels2), 0)

审核编辑：汤梓红

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表德赢Vwin官网网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

模块

模块

+关注

关注
7

文章
2696

浏览量
47430
封装

封装

+关注

关注
126

文章
7872

浏览量
142887
网络结构

网络结构

+关注

关注
0

文章
48

浏览量
11077

原文标题：YOLOv5-v6.0学习笔记

文章出处：【微信号：vision263com，微信公众号：新机器视觉】欢迎添加关注！文章转载请注明出处。

【YOLOv5】LabVIEW+YOLOv5快速实现实时物体识别（Object Detection）含源码

前面我们给大家介绍了基于LabVIEW+YOLOv3/YOLOv4的物体识别（对象检测），今天接着上次的内容再来看看YOLOv5。本次主要是和大家分享使用LabVIEW快速实现yolov5

发表于 03-13 16:01 •2145次阅读

Yolov5算法解读

(prediction)。backbone是New CSP-Darknet53。Neck层为SPFF和New CSP-PAN。Head层为Yolov3 head。 yolov5 6.0版本的主要架构如下图所示：从整体结构图中，

发表于 05-17 16:38 •9016次阅读

在C++中使用OpenVINO工具包部署YOLOv5-Seg模型

YOLOv5兼具速度和精度，工程化做的特别好，Git clone到本地即可在自己的数据集上实现目标检测任务的训练和推理，在产业界中应用广泛。开源社区对YOLOv5支持实例分割的呼声高涨，YOLOv5在

发表于 12-21 10:17 •2105次阅读

maixcam部署yolov5s 自定义模型

yolov5 pip install -r requirements.txt pip install onnx 下载预训练权重（博主尝试了v7.0的和v6.0的pt都可以） https

发表于 04-23 15:43

DongshanPI-AICT全志V853开发板搭建YOLOV5-V6.0环境

Conda搭建YOLOV5-V6.0环境 0.前言本章节主要记录如何搭建yolov5-v6.0环境，并支持CUDA加速。此文章的硬件要求如下，如果您的电脑没有显卡设备，这篇文章无法给您当做

发表于 07-12 09:59

CV之YOLOv3：深度学习之计算机视觉神经网络Yolov3-5clessses训练自己的数据集全程记录

CV之YOLOv3：深度学习之计算机视觉神经网络Yolov3-5clessses训练自己的数据集全程记录

发表于 12-24 11:51

labview调用yolo 目标检测速度太慢？yolov4：速度和精度的完美结合，性能和精度碾压yolov3

本帖最后由 wcl86 于 2021-5-10 08:56 编辑 yolov4：速度差不多的精度碾压，精度差不多的速度碾压！经过测试yolov4在相同速度下，精度完全碾压yolo-v

发表于 01-05 09:22

龙哥手把手教你学视觉-深度学习YOLOV5篇

步数的课程，希望学员学习后能在实际工业项目中落地应用。本次课程将重点讲解《YOLOv5》篇，让没有任何深度学习基础的小白学员，通过视频课程能动手配置好yolov5环境，能利用自己的数据

发表于 09-03 09:39

如何YOLOv5测试代码？

使用文档“使用 YOLOv5 进行对象检测”我试图从文档第 10 页访问以下链接（在 i.MX8MP 上部署 yolov5s 的步骤 - NXP 社区） ...但是这样做时会被拒绝访问。该文档没有说明需要特殊许可才能下载 test.zip 文件。NXP 的人可以提供有关如

发表于 05-18 06:08

基于YOLOv5的目标检测文档进行的时候出错如何解决？

你好：按Milk-V Duo开发板实战——基于YOLOv5的目标检测安装好yolov5环境，在执行main.py的时候会出错，能否帮忙看下 main.py: import torch

发表于 09-18 07:47

yolov5s_v6.1_3output.torchscript.pt模型auto_cali一键量化工具执行报错的原因？

版本是230501 torch的版本是v1.8.0+cpu 下载yolov5官方的yolov5s.pt 执行 python3 export.py --weights ./yolov5

发表于 09-18 08:01

使用旭日X3派的BPU部署Yolov5

本次主要介绍在旭日x3的BPU中部署yolov5。首先在ubuntu20.04安装yolov5，并运行yolov5并使用pytoch的pt模型文件转ONNX。

发表于 04-26 14:20 •879次阅读

浅析基于改进YOLOv5的输电线路走廊滑坡灾害识别

本文以YOLOv5网络模型为基础，提出一种改进YOLOv5（YOLOv5-BC）深度学习滑坡灾害识别方法，将原有的PANet层替换为BiFPN结构，提高网络多层特征融合能力

发表于 05-17 17:50 •1230次阅读

yolov5和YOLOX正负样本分配策略

整体上在正负样本分配中，yolov7的策略算是yolov5和YOLOX的结合。因此本文先从yolov5和YOLOX正负样本分配策略分析入手，后引入到YOLOv7的解析中。

发表于 08-14 11:45 •2266次阅读

Yolov5理论学习笔记

网络在初始锚框的基础上基于训练数据输出预测框，因此初始锚框也是比较重要的一部分。见配置文件*.yaml， yolov5预设了COCO数据集640×640图像大小的锚定框的尺寸:

发表于 09-12 17:08 •796次阅读