(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210167971.X
(22)申请日 2022.02.23
(71)申请人 同济大学
地址 200092 上海市杨 浦区四平路1239号
(72)发明人 王瀚漓 曹铨辉
(74)专利代理 机构 上海科盛知识产权代理有限
公司 312 25
专利代理师 翁惠瑜
(51)Int.Cl.
G06T 3/40(2006.01)
G06T 9/00(2006.01)
G06F 40/30(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于时空超分辨率的视频描述方法及
电子设备
(57)摘要
本发明涉及一种基于时空超分辨率的视频
描述方法及电子设备, 所述方法基于一视频描述
模型实现, 包括以下步骤: 获取输入视频, 对该输
入视频进行采样获得包含若干压缩尺寸帧的视
频帧序列; 通过所述视频描述模型, 对所述视频
帧序列进行多模态特征提取和特征编码, 动态融
合编码后的多模态特征, 逐步解码生成视频描述
语句; 其中, 所述视频描述模型训练时, 从空间和
时间两个维度上重构原始分辨率的帧和相邻采
样帧之间的中间缺失帧, 以重构误差和解码预测
误差构建损失函数, 实现模型训练。 与现有技术
相比, 本发明具有描述丰富准确、 泛化能力强、 计
算开销低等优点。
权利要求书1页 说明书7页 附图2页
CN 114549317 A
2022.05.27
CN 114549317 A
1.一种基于时空超分辨率的视频描述方法, 其特征在于, 该方法基于一视频描述模型
实现, 包括以下步骤:
获取输入视频, 对该输入视频进行采样获得包 含若干压缩尺寸帧的视频帧序列;
通过所述视频描述模型, 对所述视频帧序列进行多模态特征提取和特征编码, 动态融
合编码后的多模态特 征, 逐步解码生成视频描述语句;
其中, 所述视频描述模型训练时, 从空间和时间两个维度上重构原始分辨率的帧和相
邻采样帧之间的中间缺失帧, 以重构误差和解码预测误差构建损失函数, 实现模型训练。
2.根据权利要求1所述的基于时空超分辨率的视频描述方法, 其特征在于, 所述多模态
特征包括图像特 征、 动作特 征和局部特征。
3.根据权利要求2所述的基于时空超分辨率的视频描述方法, 其特征在于, 通过二维卷
积神经网络对每一视频帧进行所述图像特征的提取, 利用Tr ansformer编码器对所提取的
图像特征的时间关联进行建模, 实现特 征编码。
4.根据权利要求2所述的基于时空超分辨率的视频描述方法, 其特征在于, 通过三维卷
积神经网络对以每一视频帧为中心的连续16帧片段进行动作特征的提取, 利用
Transformer编码器对所提取的图动作征的时间关联进行建模, 实现特 征编码。
5.根据权利要求2所述的基于时空超分辨率的视频描述方法, 其特征在于, 通过场景图
检测网络生成所述局部特征, 该局部特征包含物体以及物体之间的语义关联, 采用图神经
网络对物体以及物体之间的语义联系进行建模, 实现特 征编码。
6.根据权利要求2所述的基于时空超分辨率的视频描述方法, 其特征在于, 通过超分辨
率解码器融合所述图像特征和局部特征重构原始分辨率的帧, 通过超分辨率解码 器融合图
像特征和动作特 征还原丢失的相邻采样帧之间的中间帧。
7.根据权利要求6所述的基于时空超分辨率的视频描述方法, 其特征在于, 所述超分辨
率解码器包括可感知位置的注意力层、 前馈网络层和层归一化, 所述可感知位置的注意力
层包含一个可 学习的相对位置矩阵和一个掩膜 矩阵。
8.根据权利要求1所述的基于时空超分辨率的视频描述方法, 其特征在于, 所述逐步解
码生成视频描述语句具体为:
在每一个时间步, 首先使用词嵌入向量化上一个时间步的单词, 然后动态融合多模态
特征, 将最后全连接层输出的向量 通过softmax计算当前时刻的单词概 率分布。
9.根据权利要求1所述的基于时空超分辨率的视频描述方法, 其特征在于, 构建的所述
损失函数表示 为:
L=Llang+λsLssr+λtLtsr
其中Llang代表描述解码预测误差的语言损失, Lssr代表空间维度的超分辨率损失, Ltsr代
表时间维度的超分辨 率损失, λs和 λt代表用于平衡时间和空间超分辨 率损失权 重的超参数。
10.一种电子设备, 其特 征在于, 包括:
一个或多个处 理器;
存储器;
被存储在存储器中的一个或多个程序, 所述一个或多个程序包括用于执行如权利要求
1‑9任一所述基于时空超分辨 率的视频描述方法的指令 。权 利 要 求 书 1/1 页
2
CN 114549317 A
2一种基于时空超分辨 率的视频 描述方法及电子 设备
技术领域
[0001]本发明涉及计算机视觉和自然语言领域, 尤其是涉及一种基于时空超分辨率的视
频描述方法及电子设备。
背景技术
[0002]近些年来, 随着5G网络的普及, 视频作为一种信息交互的媒介在人们的日常生活
中广泛传播开来, 同时也带来了各种新的挑战, 如大规模视频的自动分类、 检索、 动作和事
件的检测 等视频理解任务。 而视频描述作为视频理解任务的关键任务之一, 旨在对于一段
给出的视频片段自动生成一句自然语言描述, 在人机交互, 婴幼儿教学以及视觉障碍辅助
等领域具有非常广阔的应用前景。 由于视频场景 的丰富性以及 复杂的时序性, 对视频信息
的建模存在一定的难度, 相比于静态的图像描述任务, 视频描述任务依然存在一定的发展
空间。
[0003]随着深度学习在计算机科学领域的重大突破, 基于深度模型的视频描述方法相继
取得优秀 成果, 如专利CN 106845411B公开的一种基于深度学习和概率图模 型的视频描述生
成方法。 现有大部分方法对视频进行帧采样后, 压缩至较小尺寸输送给预训练好的卷积神
经网络进行特征提取, 然后借助于编码器 ‑解码器的结构对提取后的特征处理生成自然语
言描述。 然而这样的做法忽略了帧采样以及图片压缩过程导致的信息损失, 同时如果不进
行帧采样, 并保持原图的高分辨率进行特征提取会引入大量的计算成本, 模型运行速度显
著下降。 因此, 如何设计出一种高效的且捕捉视频丰富视觉特征的视频描述方法, 是目前亟
待解决的研究问题之一。
发明内容
[0004]本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种描述丰富准确、
泛化能力强、 计算 开销低的基于时空超分辨 率的视频描述方法及电子设备。
[0005]本发明的目的可以通过以下技 术方案来实现:
[0006]一种基于时空超分辨率的视频描述方法, 该方法基于一视频描述模型实现, 包括
以下步骤:
[0007]获取输入视频, 对该输入视频进行采样获得包 含若干压缩尺寸帧的视频帧序列;
[0008]通过所述视频描述模型, 对所述视频帧序列进行多模态特征提取和特征编码, 动
态融合编码后的多模态特 征, 逐步解码生成视频描述语句;
[0009]其中, 所述视频描述模型训练时, 从空间和时间两个维度上重构原始分辨率的帧
和相邻采样帧之间的中间缺失帧, 以重构误差和解码预测 误差构建损失函数, 实现模型训
练。
[0010]进一步地, 所述多模态特 征包括图像特 征、 动作特 征和局部特征。
[0011]通过二维卷积神经网络对每一视频帧进行所述图像特征的提取, 利用
Transformer编码器对所提取的图像特 征的时间关联进行建模, 实现特 征编码。说 明 书 1/7 页
3
CN 114549317 A
3
专利 一种基于时空超分辨率的视频描述方法及电子设备
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:29上传分享