目标检测YOLO系列算法的进化史

新机器视觉 · 公众号 · AI · 2025-06-15 11:13

主要观点总结

本文介绍了YOLO（You Only Look Once）模型的发展历史及其在目标检测领域的应用。文章详细解释了YOLO模型的工作原理，以及其相对于其他目标检测方法的优势。文章还详细阐述了YOLO模型各版本之间的改进和发展，包括YOLOv1、YOLOv2、YOLOv3和YOLOv4等。

关键观点总结

关键观点1: YOLO模型的发展历史及工作原理

YOLO是计算机视觉领域中著名的模型之一，与其他目标检测方法不同，它将目标检测任务视为一个回归问题，实现了“看一次”即可识别出图像中的物体及其位置。文章详细介绍了YOLO模型从v1到v4的发展历程，以及每个版本之间的改进和优势。

关键观点2: YOLO模型的优势

YOLO模型具有速度快、准确性高、对多种物体类别的检测能力强等特点。它在目标检测领域的应用广泛，包括医疗保健、产品优化、人脸识别、自动驾驶、卫星图像分析等领域。

关键观点3: YOLO模型面临的挑战和改进

尽管YOLO模型在目标检测领域取得了显著的成绩，但它仍然面临一些挑战，如对小对象的检测效果不理想、对某些特定数据集的性能波动等。为了克服这些挑战，研究人员不断对YOLO模型进行改进和优化，以提高其性能和泛化能力。

正文

请到「今天看啥」查看全文

下图显示了目标检测模型的结构。像人工智能中的所有算法一样，它从输入层开始（输入一个图像），目标检测的两个主要部分是Backbone和Head。Backbone的作用是提取特征，提供输入的特征映射表示，一般都会使用ImageNet上的预训练模型。Head基于特征进行训练，预测图像中物体的类别及其边界框。

在两阶段目标检测模型中， Faster R-CNN (Region-based Convolutional Neural Networks)，使用区域建议网络在第一阶段和第二阶段生成和选择感兴趣区域，并将区域建议向下发送并使用卷积神经网络进行目标分类和边界框回归。两阶段检测器模型具有最高的准确率，但通常较慢，因为必须对每个选定区域进行预测。因此很难将其用作实时对象检测器。

单阶段目标检测器，本文的YOLO（You Only Look Once），通过创建输入图像的特征图、学习类别概率和整个图像的边界框坐标，将目标识别视为一个简单的回归问题。算法只运行一次。这样的模型虽然准确率稍微有所下降，但比两阶段目标检测器快得多，通常用于实时目标检测任务。

YOLO Version 1; 统一的实时目标检测框架

YOLO 是一个简单的且不复杂的对象检测模型，它对图片进行分析只需要“看一眼”，就可以预测目标对象及其在输入图片上的位置。该算法将目标检测定义为单个回归问题。将每个给定的图像划分为一个 S * S 网格系统，该网格系统是图像的子集或一部分，每个网格通过预测网格内对象的边界框数量来识别对象。

YOLO 执行一个神经卷积网络来识别网格中的对象，预测对象周围的边界框以及它们属于哪个类别的概率。概率被用作置信水平。卷积网络的初始层从图像中提取特征，全连接层预测概率。YOLO 工作流程如下图所示：

为了识别图像中的不同对象及其位置，使用多尺度滑动窗口扫描整个图像，因为对象可以在图像的每个部分以不同的大小显示。提取滑动窗口的最佳大小和数量是很重要的，而且这是计算密集型的因为不同数量的候选或不相关的候选会影响结果。通过这种方式YOLO可以与传统算法相媲美，并且速度更快。这些步骤的示例如下图所示。

YOLO V1的优势：可以高速实时检测物，能够理解广义对象表示，模型也不太复杂。

YOLO V1 的局限性：如果小对象以集群或组的形式出现，则模型效果，例如下图所示

YOLO V1 训练是基于损失函数来展示检测性能的，而损失函数没有考虑窗口的大小，大框中的小错误是显而易见的，但其实小框中的错误其实应该更加被关注，因为他对交并比的影响更大，交并比是一种评估指标，用于衡量数据集上对象检测器模型的准确性 [6]。