(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202211154588.7
(22)申请日 2022.09.22
(65)同一申请的已公布的文献号
申请公布号 CN 115240075 A
(43)申请公布日 2022.10.25
(73)专利权人 山东大学
地址 250000 山东省济南市历城区山大南
路27号
专利权人 智洋创新科技股份有限公司
国网浙江省电力有限公司温州供
电公司
华北电力大 学 (保定)
浙江大华 技术股份有限公司
山东省计算中心 (国家超 级计算
济南中心)
(72)发明人 聂礼强 甘甜 赵砚青 郑晓云
赵振兵 熊剑平 杨飞 董兴宁
高赞
(74)专利代理 机构 山东知圣律师事务所 37262
专利代理师 黄学国
(51)Int.Cl.
G06V 20/10(2022.01)G06V 10/25(2022.01)
G06V 10/40(2022.01)
G06V 10/764(2022.01)
G06V 10/774(2022.01)
G06V 10/82(2022.01)
G06T 5/00(2006.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(56)对比文件
CN 113903081 A,202 2.01.07
CN 114694178 A,202 2.07.01
CN 114821014 A,202 2.07.29
WO 20191097 71 A1,2019.0 6.13
US 2018373985 A1,2018.12.27
程超.基于深度学习的新型电力 智能交互平
台多任务集成模型研究. 《电测与仪表》 .202 2,
Zhenzhong Kuang et al. .Deep Multi-
task Learn ing for Large-Scale Ima ge
Classificati on. 《2017 IE EE Third
Internati onal Conference o n Multimedia
Big Data (BigM M)》 .2017,
审查员 郭晓坤
(54)发明名称
电力视觉多粒度预训练大模型的构建与训
练方法
(57)摘要
本发明涉及输电线路巡检技术领域, 具体涉
及一种电力视觉多粒度预训练大模型的构建与
训练方法, 包括图像修复、 图像分类、 目标检测、
图像描述四个粒度层级的视觉任务; 采用多阶段
的大模型训练方法, 使得模型具有数据挖掘、 增
量训练和模型进化的功能; 其中, 第一阶段在海
量公开数据集上训练, 输出预训练大模型; 第二
阶段在大量无标签电力场景数据集上进行自监
督训练, 输出电力视觉多粒度预训练大模型; 第
三阶段利用大模型针对电力数据集进行隐患图像筛选, 大大减轻了人工筛选代价, 将隐患图像
数据交由人工进行精细化标注, 再次输入大模型
进行迭代优化, 使 得视觉预训练大模型更加适配
电力场景视 觉任务需求。
权利要求书2页 说明书7页 附图3页
CN 115240075 B
2022.12.13
CN 115240075 B
1.一种电力视 觉多粒度预训练大模型的构建与训练方法, 其特 征在于, 包括以下步骤:
S1, 收集与电力场景相关的公开图像数据集, 形成一个覆盖电力领域多粒度视觉需求
的大数据集;
S2, 针对电力视觉场景各个领域的需求, 构建电力 视觉多粒度预训练大模型; 包括以下
步骤:
S21, 基于Sw inV2‑G模型对图像进行图像特 征提取;
S22, 基于第一级粒度特 征进行图像修复任务;
S23, 基于第二级粒度特 征进行图像分类任务;
S24, 基于第三级粒度特 征进行图像目标检测任务;
S25, 基于第四级粒度特 征进行图像描述任务;
S3, 在电力视 觉多粒度预训练大模型 上训练; 包括以下步骤:
S31, 第一阶段训练: 使用S1中的公开数据集进行训练;
S32, 第二阶段训练: 采用数据增强对电力视觉多粒度预训练大模型无标签数据集进行
扩充, 然后输入 模型中进行自监 督训练;
S4, 利用预训练大模型对数据集进行隐患图像筛选, 然后再交由人工进行精细化标注,
得到精细化标注数据集;
S5, 第三阶段训练: 针对S2中电力场景的各种视觉任务, 依据精细化标注数据集, 再次
输入电力视 觉预训练大模型进行微调。
2.根据权利要求1所述的电力视觉多粒度预训练大模型的构建与训练方法, 其特征在
于, 步骤S5中, 电力视 觉多粒度预训练大模型的微调包括以下步骤:
S51, 利用电力视觉预训练大模型的图像分类任务对电力场景数据集进行隐患图像筛
选;
S52, 通过固定模型网络前2~6层SwinV2 Block权重, 只微调后面的SwinV2 Block权重
参数, 以此避免因数据量小造成过拟合现象, 使得 预训练大模型 更加合适电力场景。
3.根据权利要求1所述的电力视觉多粒度预训练大模型的构建与训练方法, 其特征在
于, 步骤S5中, 视觉任务包括水雾模糊、 物体遮挡的图像修复任务, 电力安全隐患图像分类
任务, 杆塔、 导线、 烟火的目标检测任务, 以及图像描述任务。
4.根据权利要求1至3中任一所述的电力 视觉多粒度 预训练大模型的构建与训练方法,
其特征在于, 在步骤S32 中, 采用的数据增强方法包括几何变换、 随机裁剪、 尺度变化、 噪声
模糊; 自监督训练方法为使用预训练大模型的网络作为主干架构进行基于对比学习的自监
督训练。
5.根据权利要求1所述的电力视觉多粒度预训练大模型的构建与训练方法, 其特征在
于, 在步骤S21中, 每6层SwinV2 Block增加层归一化操作, 用以稳定SwinV2的训练层、 加快
训练速度, 加速收敛 过程。
6.根据权利要求1所述的电力视觉多粒度预训练大模型的构建与训练方法, 其特征在
于, 在步骤S22中, 第一层在像素级上计算损失实现图像修复任务; 图像复原损失函数将 MS‑
SSIM Loss和 L1 Loss相结合, 损失函数如下:
权 利 要 求 书 1/2 页
2
CN 115240075 B
2上述公式中,
设置成为0.84, 使得两种损失的值能大致平衡,
是计算MS ‑SSIM中的
第M个尺度的高斯核。
7.根据权利要求1所述的电力视觉多粒度预训练大模型的构建与训练方法, 其特征在
于, 在步骤S23中, 第二层 采用交叉熵损失实现图像 分类任务; 将S21提取到的图像特征输入
到多层感知机中, 最后计算交叉熵损失; 损失函数如下:
上述公式 中,
为预测向量,
为真实标签向量。
8.根据权利要求1所述的电力视觉多粒度预训练大模型的构建与训练方法, 其特征在
于, 在步骤S24中, 第三层采用Fast RCNN损失实现图像目标检测 任务; 首先将S21提取到的
图像特征输入区域候选网络RPN, 用来提取候选框, 然后通过感兴趣区域池化为图像中的所
有对象提供正确的标签和位置, 最后计算Fast RCNN损失; 损失函数如下:
上述公式中,
是锚框的预测分类概率;
是锚框预测的Bounding Box的参数化坐标;
是锚框的Groun d Truth的Boun ding Box的参数化坐标;
是mini‑batch size;
是
Anchor Location的数量;
, R是Smooth L1的函数;
表示只
有在正样本 时才回归Bounding Box; λ是权重平衡参数, 用于控制回归损失在Fast RCNN损
失中所占比例, 取值范围为1到10 0。
9.根据权利要求1所述的电力视觉多粒度预训练大模型的构建与训练方法, 其特征在
于, 在步骤S25中, 第四层采用BERT模型提取文本特征并结合图像特征实现图像描述任务;
首先将图像文本的描述信息输入BERT模型提取文本特征, 将图像特征和文本特征进 行矩阵
相乘, 并通过噪声约束估计损失函数进行优化, 其公式如下:
其中,B代表所抽取的训练batch, exp代表以e为底的幂指数,
代表矩阵的乘积,
代
表视觉特征,
代表文本特 征。权 利 要 求 书 2/2 页
3
CN 115240075 B
3
专利 电力视觉多粒度预训练大模型的构建与训练方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-24 00:58:28上传分享