专利一种无人机视角下轻量级YOLOv4的行人检测方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211000295.3 (22)申请日 2022.08.19 (71)申请人南京航空航天大学地址 210016 江苏省南京市秦淮区御道街 29号 (72)发明人袁宁　黎宁　周明龙　张正冉　 (74)专利代理机构江苏圣典律师事务所 32 237 专利代理师刘辉 (51)Int.Cl. G06V 20/17(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/25(2022.01) G06V 10/762(2022.01) G06V 10/774(2022.01)G06V 10/82(2022.01) G06V 20/40(2022.01) (54)发明名称一种无人机视角下轻量级YOLOv4的行人检测方法 (57)摘要本发明公开了一种无人机视角下轻量级 Y O L O v 4 的行人检测方法，采用改进的 MobileNetv3作为主干特征提取网络，结合 YOLOv4框架开展行人的目标检测，并对检测模型进行量化分析，修改网络的结构，削减了模型的参数量和运算成本以达成无人机场景下行人检测的需求；改进的MobileNetv3主要指的是将SE 注意力模块替换成SESAM模块，学习通道之间的相似性的同时学习了行人的空间特征，保证模型较小的同时不降低检测的精度；最后采用CIoU的损失函数去计算评价的参数，增加了对目标框尺度的敏感程度；本发明在复杂多变的情况下，能够有效克服不利因素，具有更强的泛化能力，检测效果更好，在智能交通检测等系统中具有良好的应用潜力。权利要求书2页说明书5页附图3页 CN 115359376 A 2022.11.18 CN 115359376 A 1.一种无人机视角下轻量级YOLOv4的行人检测方法，其特征在于，包括如下步骤：步骤1)，采用无人机进行数据集的初步构建：采用分帧算法对视频提取单帧图片，构建无人机平台的行人数据集；对行人数据集进行标注，得到带有标签的图像数据集；步骤2)，对图像数据集进行数据增广预处理操作，并采用K ‑means目标框聚类分析，自适应生成图像数据集下目标框大小；所述数据增广预处理操作包括随机翻转、裁剪、缩放和增加高斯白噪声；步骤3)，搭建改进的MobileNetv3 ‑YOLOv4轻量级行人目标检测网络；所述改进的 MobileNetv3 ‑YOLOv4网络是用改进的MobileNetv3 网络替换CSP ‑Darknet53网络作为行人检测网络的特征提取层、并用CI oU损失函数替换I oU损失函数的行人检测网络 YOLOv4；所述改进的MobileNetv3网络是在bottleneck结构的深度可分离卷积模块和Scale操作模块之间增加SESAM注意力模块的Mobi leNetv3网络；所述SESAM注意力模块包含压缩模块、激励模块和SAM模块；所述压缩模块包含一个全局平均池化层，用于将深度可分离卷积模块输出大小为H ×W ×C的特征向量压缩成1 ×1×C的特征向量，得到每个通道的全局特征向量并将其输入至激励模块， C代表了模型的通道数， H和W代表图片的高和宽；所述激励模块包含了两个全连接层，第一个全连接层有C ×SERatio神经元，第二个全连接层有C神经元，用于对压缩后的特征向量做非线性变换使其映射到C个通道数的权重上，并将经非线性变换后的特征向量输入至SAM模块， SERati o是通道数量的缩放的参数；所述SAM模块包含全局最大池化模块、全局平均池化模块和 sigmoid激活函数，用于将经非线性变换后的特征向量分别输入全局最大池化模块、全局平均池化模块，得到两个H × W×1的特征向量后链接起来形成一个H ×W×2的特征向量，并将该H ×W×2的特征向量通过 sigmoid激活函数进行归一化处理输出至Scale操作模块；所述CIoU损失函数的公式如下： LCIoU＝1‑CIoU CIoU＝IoU‑ρ2c‑2‑α ν 式中， LCIoU是CIoU损失函数值， IoU是目标预测的边框和真实的边框的交叠率，即它们的交集和并集的比值， A是预测目标框的面积， B是真实目标框的面积； ρ 是预测目标框中心与真实目标框之间的欧氏距离； c表示包含预测目标框和真实目标框的对角线距离；惩罚因子 ρ2c‑2能够最小化预测框中心与地面真值中心之间的距离， α 和 ν 公式由以下定义： wgt和hgt是真值的高度和宽度， w和h是预测框的高度和宽度；步骤4)，将经数据增广预处理操作后的图像数据集输入改进的MobileNetv3 ‑YOLOv4轻量级行人目标检测网络，生成格式为ckpt的网络参数权重文件；权　利　要　求　书 1/2 页 2 CN 115359376 A 2步骤5)，将网络参数权重文件加载至改进的MobileNetv3 ‑YOLOv4轻量级行人目标检测网络，对分帧图片和视频进行行人目标框的预测，在经过非极大抑制筛选无效的目标框后，得到精确的行人预测的目标框。 2.根据权利要求1所述的无人机视角下基于MobileNetv3 ‑YOLOv4的行人检测方法，其特征在于，所述步骤1)中训练集和测试集的比例分别占图像数据集的90％和10％，训练集中的20％在训练过程中用来验证模型准确性。权　利　要　求　书 2/2 页 3 CN 115359376 A 3

专利 一种无人机视角下轻量级YOLOv4的行人检测方法

专利一种无人机视角下轻量级YOLOv4的行人检测方法